https://t.me/Tardiy_studies/537
В этой работе есть один момент, за который мне в каком-то смысле стыдно. Для детекции сайтов расщепления РНК я решил использовать самый простой и тупой метод - я просто картировал транскрипты на референс, посчитал число картированных 5' концов этих транскриптов на каждую нуклеотидную позицию каждой цепи и потом сравнивал эти значения между targeting/nontargeting образцами. Для этого сравнения решил использовать пакет edgeR, который разработан для анализа дифференциальной экспрессии генов. Анализ дифф. экспрессии это вообще особая область науки, в которой я не смог толком разобраться. Не могу сказать, что я не пытался в этом разобраться, но, в общем, дальше просмотра роликов на stat quest не пошло, и я толком не понимаю, как этот edgeR работает, и у меня есть подозрение, что для моих данных этот метод вообще не очень подходит.
В общем, этот статистический тест выдал мне таблицу со значениями log fold change и p-value; проблема в том, что эти p-value были очень низкими, типа десять в степени минус сто, или что-то в таком роде. Я знаю, что есть такая вещь, как поправка на множественное сравнение, но применение этой поправки картину не меняло. Пока я сидел и во всем этом разбирался, случайно наткнулся на тред какого-то биоинформатика в твиттере, который запостил скриншот volcano plot из какой-то статьи, где вот тоже были значения типа 10^-200, и сопроводил этот скриншот словами "человек, который делал этот анализ, вообще ничего не смыслит в computational biology, такие низкие значения p-value явный признак batch эффектов или искажений другого рода, статью следует немедленно ретрактнуть, а человека, который делал анализ, гнать из науки поганой метлой".
Мне от этого треда, признаться, аж поплохело. Я пытался получить каких-то советов от биоинформатиков или людей, сведущих в математике и статистике, но, в общем, ничего хорошего из этого не вышло. Отчасти это связано с тем, что биологи не понимают статистики, а математики не понимают биологии. Когда-то я получал очень ценные консультации от П. Мазина, но он к тому моменту давно уже уехал, и мне как-то неловко было его беспокоить. Я пытался найти примеры работ, где делали анализы похожего рода, но там все было еще хуже - что-то из серии "будем считать разницу значимой, если количество картированных родов больше десяти, а разница больше чем в три раза". В итоге я на это плюнул - в конце концов, предсказанные сайты расщепления РНК подтверждались экспериментальными методами, и эти результаты воспроизводились. В качестве отсечки я решил взять первые сто предсказанных сайтов, ранжированных по p-value. Я опасался, что рецензенты к этим данным могут придраться, но по части анализа ни у кого из них вопросов не было.
Может быть, когда-нибудь я узнаю, "как надо было делать", но не уверен. Может быть, увижу в твиттере какой-нибудь тред, в котором скриншоты из статьи будут сопровождаться подписью "эти дегенераты совсем охуели" - это вполне вероятно.
Вообще во время курса ММБ на биофаке я столкнулся с тем, что у меня очень плохо с абстрактным мышлением. Слушаешь вот все эти телеги, проиллюстрированные примерами с киданием монеток или вытаскиванием шариков из мешка, и вроде бы что-то даже понятно, но перенести это понимание на другой субстрат очень тяжело. В общем-то это означает, что понимание отсутствует.