Telegram channel page: Задумчивая крыса • @pensarata

PE

Задумчивая крыса

1 084 subscribers

1

17

Даже Грок, и тот против, эх. Последнее, честно))

04/23/2025, 21:12

t.me/pensarata/255

PE

Задумчивая крыса

1 084 subscribers

1

No, it’s not appropriate to name every nucleotide as a genetic marker. A genetic marker is a specific, identifiable segment of DNA with a known location and variation (e.g., SNPs, STRs) used to study traits, diseases, or ancestry. Labeling every nucleotide as a marker would dilute the term’s meaning, as most nucleotides lack distinct variability or functional significance for tracking purposes. Only nucleotides or regions meeting criteria like polymorphism and mappability qualify as genetic markers.

04/23/2025, 21:12

t.me/pensarata/256

PE

Задумчивая крыса

1 084 subscribers

1

На второй заданный вопрос ИИ тоже не согласен почему-то использовать тест генотека вслепую. Эх, ну врёт видимо, чего поделаешь.

04/23/2025, 19:29

t.me/pensarata/253

PE

Задумчивая крыса

1 084 subscribers

1

04/23/2025, 19:29

t.me/pensarata/254

PE

Задумчивая крыса

1 084 subscribers

1

103

ChatGPT тоже так не считает. Привожу только скрин начала ответа, ибо дальше идет по сути то же самое, что говорит DeepSeek (без немного странного абзаца про WGS)

04/23/2025, 19:21

t.me/pensarata/252

PE

Задумчивая крыса

1 084 subscribers

1

04/23/2025, 19:16

t.me/pensarata/251

PE

Задумчивая крыса

1 084 subscribers

1

04/23/2025, 19:16

t.me/pensarata/250

PE

Задумчивая крыса

1 084 subscribers

1

51

Задал вопрос про "3 млрд генетических маркеров" в тесте Генотека Ракитько лично. Он ответил что корректно и поправился, что "ну не все 3 млрд нуклеотидов мы детектим, потому наверное 2.7млрд"
В своей презентации до этого он предлагал использовать ChatGPT. Думаю, DeepSeek тоже подойдет. Спросим у него, можно ли каждый нуклеотид генетическим маркером называть?

Кажется, DeepSeek так не считает, ой.

04/23/2025, 19:16

t.me/pensarata/249

PE

Задумчивая крыса

1 084 subscribers

20

4

543

Сходили с женой на очень крутой фильм — Гадкая сестра. Описание от Афиши прилагаю. Добавлю, что это далеко не прочтение в стиле "доброго злодея", как было у диснеевской Малифисенты. Это жёсткий фильм, наподобие Субстанции (ее тоже смотрели и это тоже классный фильм).
Из-за некоторых сцен пожестче, чем в субстанции, вряд ли будет широко в кинотеатрах, но просмотра определенно стоит. Мне понравился даже больше Субстанции, ибо более реалистичен и если в той ты понимаешь, что много где гиперболы — то тут хоть гиперболы и есть, но намного более приближенные к жизни. И прочесть фильм можно сильно по-разному, и вина/ответственность за происходящее размазана тонким слоем между почти всеми участниками.

04/19/2025, 21:39

t.me/pensarata/248

PE

Задумчивая крыса

1 084 subscribers

1

444

Лёша классный

04/18/2025, 20:34

t.me/pensarata/246

PE

Задумчивая крыса

1 084 subscribers

Repost

5

2

446

📣 Центр Когнитивного Моделирования ФПМИ МФТИ приглашает на презентацию магистерской программы «Методы и технологии ИИ».

📆 Когда: 21 апреля в 18:50
📍 Где: Физтех.Арктика, Поточная аудитория
🔗 Трансляцию можно будет посмотреть онлайн на странице ЦКМ в ВК.

Набор на программу откроют директор ЦКМ, д.ф-м.н Александр Панов и куратор магистерской программы, к.ф.-м.н. Алексей Ковалёв. Они расскажут про читаемые курсы, процесс поступления и карьерные возможности.

Центр когнитивного моделирования — это:

🔹 две лаборатории: Когнитивных динамических систем и Интеллектуального транспорта;
🔹 сотрудники и студенты публикуют больше 10 статей уровня Q1/A/A* в год;
🔹 широкий охват направлений ИИ в исследованиях: RL, NLP, CV, Robotics и другие.

Студенты Центра:

🔸 выезжают на международные конференции: ICLR, AAAI, ICRA и др.;
🔸 работают над проектами с сотрудниками разных организаций. Например: Институт ИИ МФТИ, ФИЦ ИУ РАН, AIRI, МАДИ, SBER Robotics Lab;
🔸 обучаются у сильного преподавательского состава, состоящего из практикующих учёных.

После прохождения обучения вы сможете остаться работать в Центре или устроиться в компании-партнёры. На презентации мы уделим особое внимание карьерным возможностям и рассмотрим различные треки.

📧 На очной встрече у вас будет возможность лично задать вопросы сотрудникам и студентам Центра.
〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️〰️
Больше информации о Центре Когнитивного Моделирования можно узнать на сайте или в социальных сетях: ВК, Телеграм.

#анонс_презентация2025

04/18/2025, 20:34

t.me/pensarata/247

PE

Задумчивая крыса

1 084 subscribers

31

9

423

Вообще есть увлекательное действо, которое советую всем, кто участвует в студсоветах и тд.

Берем речи, произносимые участниками, и глазами (или нейросетками) сравниваем с тем, что несут чиновники и единоросы в целом. Медитируем.

* Это не значит, что любая форма самоорганизации плохая, буквально недавно наблюдал что-то, у чего есть шансы

** Но большая часть студсоветовских приколов — это кадровый резерв ЕР или похожих объединений. Проще говоря — "пиздаболы обыкновенные"

04/15/2025, 15:55

t.me/pensarata/245

PE

Задумчивая крыса

1 084 subscribers

3

461

04/14/2025, 20:49

t.me/pensarata/244

PE

Задумчивая крыса

1 084 subscribers

6

3

459

Гигачат продолжает выдавать кринж. Ничего нового.

04/14/2025, 20:49

t.me/pensarata/243

PE

Задумчивая крыса

1 084 subscribers

19

14

420

Кстати если кому хочется поиграться — делал домашку по EM-алгоритмам.
Удолбался, но вроде интересно получилось
https://colab.research.google.com/drive/1lkdHhMAezc_ykLVaTlz564e_bgVUqvAS?usp=sharing

04/12/2025, 15:03

t.me/pensarata/242

PE

Задумчивая крыса

1 084 subscribers

33

7

433

В связи с отключением отопления на улице кормушки птиц опять полны.
А у котов подключен телевизор.

04/11/2025, 17:11

t.me/pensarata/241

PE

Задумчивая крыса

1 084 subscribers

Repost

10

1

321

ARC-AGI-2 [2025]

В конце прошлого года OpenAI анонсировали модель O3, которая при достаточно длительном размышлении решает первую часть ARC на высокий результат, близкий к человеческому, правда, на публичном эвале. Недавно авторы решили выпустить его вторую версию.

Как известно, Claude Boys и O1-pro Boys всей душой ненавидят ARC и при каждой возможности пытаются принизить его значимость. У этого есть вполне обоснованные причины:

1) Задачи этого бенчмарка не представлены в виде естественного языка. LLM Boys считают, что бенчмарк должен быть разработан так, чтобы было удобно решать тем моделям, которые им нравятся. Ну и, в отличие от опросников в формате ЕГЭ, ARC-вопросы не имеют практического смысла.
2) Если бенчмарк представляет принципиально новый челлендж, то в современных кругах это считается препятствием к техническому прогрессу. Чтобы развивать технологии, необходимо хвалить то, что уже есть, и не качать лодку.
3) Личность автора этого бенчмарка очень сильно беспокоит фанатов LLM. Он осмелился писать плохое про языковые модели в X (то, что это не AGI) и вообще мерзкий тип - и это автоматически делает его бенчмарк менее рукопожатным.
4) Самый страшный грех для авторов AI-бенчмарка в 2025 году - они понимают, как работает современная наука, и поэтому не выкладывают тестовые данные в открытый доступ, тем самым связывая руки почти всем современных учёным.

Так, а что, собственно, нового во второй части? Авторы почесали репу, разглядывая, как текущие подходы решают первую часть,

Первое, что они поняли - если задачу можно решить DSL-перебором, значит, она слишком простая и не требует интеллекта в принципе. Это почти половина задач из оригинальной версии бенчмарка.

Кроме этого, авторы попытались понять, с чем возникают сложности у современных моделей. На первый план выведено 3 аспекта:

1) Symbolic Interpretation - способность "глубоко" интерпретировать значение объектов на поле, за рамками простого visual pattern.
2) Compositional Reasoning - способность применять одновременно несколько правил, взаимодействующих друг с другом
3) Contextual Rule Application - способность применять правила по-разному в зависимости от контекста

На основе этих знаний и была составлена вторая версия бенчмарка - ARC-AGI-2. Утверждается, что сложность для людей осталась примерно такой же - 60% (было 64%) прохождения в среднем, и ни одна задача не осталась совсем не решённой тестировщиками.

Вы можете поиграться с паблик эвалом здесь (выбирайте Public Evaluation Set v2 (Hard)). Но не пугайтесь первой задачи - она аномально сложная по сравнению с другими. В среднем, подтверждаю, что сложность лишь слегка выше первой версии. Задачи стали больше по размеру и содержат больше элементов, но в большинстве случаев решение почти сразу становится понятным. При этом, оно часто не поддаётся простому объяснению, что и делает DSL-перебор крайне сложным.

По новой версии уже стартовало новое Kaggle-соревнование, как когда-то по старой. Но времена сильно изменились - в 2020 AGI считался стыдной темой и был лишь уделом мечтаний узкого круга лиц, тогда как сейчас это способ поднять бабок на инвестициях от лохов. Так что, взять золото в нём так просто, как у меня в тот раз, уже не выйдет.

@knowledge_accumulator

04/09/2025, 01:32

t.me/pensarata/240

PE

Задумчивая крыса

1 084 subscribers

18

5

408

3 из 3
1. Я тут прочитал про нейросети и ща расскажу
2. Анальный секс имеет много общего с докингом в аллостерический сайт
3. "Настоящая" математика. Бедные машинлернеры, "жмущие на кнопки, не применяя формул". Другое дело "нормальный теорфизический аппарат"

Остальные тексты, к сожалению, такая же шиза.

04/05/2025, 19:29

t.me/pensarata/239

PE

Задумчивая крыса

1 084 subscribers

35

14

738

04/01/2025, 20:55

t.me/pensarata/238

PE

Задумчивая крыса

1 084 subscribers

11

8

512

Осталось делать ставки, уйдет таки Трофимыч в публичное поле неиронично, или нет... https://gosniipp.ru/ru/news/biologiya-i-medicina/20250401/ii-i-genetika-kak-rossiiskie-neiroseti

04/01/2025, 15:20

t.me/pensarata/237

PE

Задумчивая крыса

1 084 subscribers

Repost

16

7

410

ИИ и генетика: как российские нейросети учатся читать ДНК и создают персонализированную медицину

XXI век стал эпохой искусственного интеллекта — технологии, которая меняет не только цифровой ландшафт, но и фундаментальную науку. Особенно ярко это проявляется в биологии и медицине, где ИИ помогает расшифровывать ДНК, создавать персонализированные лекарства, корректировать поведение и даже проектировать новые формы жизни. Российские учёные не отстают, а где-то даже опережают своих коллег из международного сообщества. На состоявшейся недавно конференции «ИИ в науке» младший научный сотрудник Никита Трофимович Лисенко дал развернутый обзор состояния дел в области. Наша редакция обратилась к Никите Трофимовичу с просьбой написать краткую выжимку его доклада.

Читайте на сайте.

Автор: Дмитрий Пензар, Никита Нёгру, Екатерина Горбунова

#Биомолекула_новость

04/01/2025, 08:26

t.me/pensarata/236

PE

Задумчивая крыса

1 084 subscribers

34

4

499

А, да, ДНК-модели работают

04/01/2025, 00:36

t.me/pensarata/235

PE

Задумчивая крыса

1 084 subscribers

32

1

488

Оказывается, сегодня не только профессиональный праздник админов Labrats, но и наш с женой персональный

04/01/2025, 00:35

t.me/pensarata/234

PE

Задумчивая крыса

1 084 subscribers

6

500

03/31/2025, 08:44

t.me/pensarata/233

PE

Задумчивая крыса

1 084 subscribers

43

6

508

Можно ещё спросить у дипсик, что произошло на площади Тяньаньмэнь. Очень надёжно.

03/31/2025, 08:44

t.me/pensarata/232

PE

Задумчивая крыса

1 084 subscribers

8

3

365

Вообще более полная версия дивно хороша, во-первых, вставками от организатора. Во-вторых, ответами на вопросы.

Ну и в третьих, можно по вопросам и словам организатора увидеть как не работает популяризация в составлении научной картины мира и "научного мышления". Какие-то факты он честно запомнил, но слушать нашу дичь на полном серьёзе ему это не мешает.

Чел, кстати, очень позитивный и приятный.

03/29/2025, 00:54

t.me/pensarata/231

PE

Задумчивая крыса

1 084 subscribers

Repost

11

254

Выложили версии в хорошем разрешении и более полную (с ответами Никиты Трофимовича Лисенко)

Ютуб
Выступление и вопросы
Выступление

Рутуб
Выступление и вопросы
Выступление

Вк
Выступление и вопросы
Выступление

Материалы лекции

03/29/2025, 00:50

t.me/pensarata/230

PE

Задумчивая крыса

1 084 subscribers

16

1

429

У меня было два главных опасения — что кто-то из участников знает, кто такой Лысенко, и что кто-то из участников видел фотки Шмидхубера и Бенджио

03/28/2025, 16:26

t.me/pensarata/229

PE

Задумчивая крыса

1 084 subscribers

Repost

13

5

220

Уважаемые подписчики!

Как нас просили, выкладываем выступление "Искуственный интеллект в науке" от младшего научного сотрудника лаборатории вычислительных методов биокатализа низших эукариот Никиты Трофимовича Лисенко.
Выступление состоялось в рамках вчерашней конференции "Конференции по искусственному интеллекту", проводившейся сообществом Proxima

03/28/2025, 16:23

t.me/pensarata/228

PE

Задумчивая крыса

1 084 subscribers

11

21

364

https://www.nature.com/articles/s41592-024-02362-y

Хорошая обзорная статья по data leakage от коллеги. Хотелось бы конечно больше обозренных задач, ибо на самом деле правильное название "... in protein-related machine learning applications". Например, хоть и говорится, что персональные варианты запоминаются моделью и потому она на исходной популяции лучше предсказывает, чем на другой (где качество и до 0 может упасть), но ссылок нет — а ведь это главный тейк реггеномики сейчас.

Картинка 2 очень полезна для объяснения новичкам того, а в чем проблема при работе с биологическими данными. Респект.

Цитируется очень приятная формализующая всю историю работа Leakage and the Reproducibility Crisis in ML-based Science

Самое важно — в Nature наконец-то звучит правильное и корректное определение data leakage, до которого лично мне приходилось долго доходить. Ибо в биологии везде можно найти формальные лики в данных — вопрос, когда они действительно важны.
Performance scores for an ML-based predictor f are inflated due to data leakage if f uses illegitimate information to achieve the reported scores, that is, information in the training data that generalizes to the test data but not to the inference-time data.
Можно на этом моменте есмотреть картинку 2 и 90% задач статьи для науки выполнена. Ибо есть определение и есть примеры ситуаций, которые подходят под это определение. Сами ситуации между собой частично пересекаются, потому назвать уже их классификацией не получится. Некий чеклист, да.

Далее примеры ситуаций расшифровываются уже на конкретных кейсах на примере 4х задач из работы с белками. Не везде согласен, но в принципе да.

Важным упущением является то, что упоминается, как при работе с белками важно учитывать гомологию. Но не упоминается то, что во многих задачах нам важна похожесть именно доменов, порой только активных центров, а не всех белков. Показано, что те же решения задачи предсказания drug–target interactions очень уж любят запоминать именно карман. и втупую разбиения по гомологии пропустят эту историю.

Еще важный момент — указывается, что использование моделей типа ESM2 для получения эмбедингов может приводить к data leakage тоже. Ибо они-то видели и трейн ваш, и тест. А вот то, на чем будете предсказывать — не факт

Из плохих мест — критерий 2 (про несбалансированные данные формализован плохо.
Biological data often show class imbalance. For example, there may be more healthy samples than disease samples, more non-binding pairs of molecules than binding ones, or more major than minor subvariants of a phenotype. ML requires balanced training datasets or weighted losses. Otherwise, the model may perform well by predicting only the majority class. Unbalanced training datasets may require undersampling the majority or oversampling the underrepresented class(es). An uninformed sampling strategy can create new shortcuts in predicting the label distributions, for example, if the sampling is done uniformly at random, but the major class(es) follow a different distribution. The performance may seem impressive when the model is evaluated on a test set containing the same biases. However, when a minority class sample is seen at inference time, the performance may be poor as the shortcut is not applicable.

Нет, ML не "requires balanced training datasets or weighted losses". Нет, "predicting only majority class" моделью будет детектиться любой метрикой, которая не accuracy. Конечно, человек защищавшийся со мной в один день утверждал, что accuracy самая используемая метрика, но это проблема этого человека. Нет, undersampling или oversampling работают так себе in general. Это очень задаче-специфично (но ладно, там хоть may написано).

У вас распределение на другом классе по-определению должно отличаться от на своем, иначе какой смысл в ml. Проблема imbalanced datasets очень сильно перехайплена. И к data leakage она приводит примерно никак. У вас даже на тесте баланс классов может быть такой же несбалансированный и выучивание подобного априора может помочь модели. Можно Дьяконова про проблему дисбаланса почитать.

03/26/2025, 14:05

t.me/pensarata/227

PE

Задумчивая крыса

1 084 subscribers

29

1

405

Эх.

03/25/2025, 16:51

t.me/pensarata/226

PE

Задумчивая крыса

1 084 subscribers

3

432

03/25/2025, 11:20

t.me/pensarata/224

PE

Задумчивая крыса

1 084 subscribers

3

434

03/25/2025, 11:20

t.me/pensarata/225

PE

Задумчивая крыса

1 084 subscribers

14

3

432

Кажись, братья молдоване из зарубежных участков ночью проголосовали.

А ещё когда голоса накручиваешь, но забываешь рядом посты про позицию Каца (3й скрин) и позицию Жданова (4й скрин) тоже накрутить.
Про комменты молчу.

Простите за политику, но смешное просто.

03/25/2025, 11:20

t.me/pensarata/222

PE

Задумчивая крыса

1 084 subscribers

3

429

03/25/2025, 11:20

t.me/pensarata/223

PE

Задумчивая крыса

1 084 subscribers

8

2

408

Модель на 50к параметров бьёт днкмодели на бенчмарках ДНК же моделей.

https://arxiv.org/abs/2503.16351

Это опять про emergent abilities ДНК языковых моделей. Ну и ещё про одно.

ДНК языковые модели проверяются авторами этих моделей на бенчмарках, которые к биологии имеют откровенно мало отношения и/или просто плохо составлены.
И нормальных бейзлайнов не делают. Включая CNN простые. Есть только отдельные работы, где это делают, но чукча не читатель.

Потому мы даже не знаем, а действительно ли Lyra настолько хорошая, или же она просто бьёт убогие днкмодели.

Кода пока не выложено, будем ждать, чтоб самим потестить.

03/22/2025, 12:59

t.me/pensarata/221

PE

Задумчивая крыса

1 084 subscribers

31

6

447

Правда, разумеется, посередине. Интеллект людей, выбравших биологическую сферу не больше и не меньше, чем у людей, выбравших генерить реалистичные видео или рекомендательные системы пилить.

Я больше того скажу, средний ученый не сильно умнее среднего человека в популяции. Простите, но это так. Не надо ум считать через то, сколько формул цветков, метаболических путей или ещё чего вы знаете. Всегда есть tradeoff. Гениальный шахматист может не смочь 5.5+5.5 сложить. Здесь так же

03/21/2025, 21:23

t.me/pensarata/220

PE

Задумчивая крыса

1 084 subscribers

6

3

406

Вот с одной стороны как бы и да, Аншуль прав. А с другой — а точно огромного интеллекта и понимания требуется, чтобы сделать настолько хреновый препринт, как мы вчера разбирали?

03/21/2025, 21:18

t.me/pensarata/218

PE

Задумчивая крыса

1 084 subscribers

3

401

03/21/2025, 21:18

t.me/pensarata/219

PE

Задумчивая крыса

1 084 subscribers

7

434

Итого: из трех выводов авторов, которые они сделали благодаря своему пакету, который "addresses an important need in regulatory genomics" не является обоснованным ни один. Может где-то они попали пальцем в небо, но из их данных это не следует.

Таким образом, если сделать, не разобравшись ни в природе данных, что вы набрали, ни в том, как на них обучать модели, какую-то рандомную х**ню, то и выводы вашей работы — рандомная х**ня.

03/21/2025, 08:02

t.me/pensarata/217

PE

Задумчивая крыса

1 084 subscribers

3

413

У авторов оставался последний вывод, который казался мне разумным. Что на нативных последовательностях учиться легче, чем на рандомных. Мол больше биологического сигнала. Ну вот риал же хочется верить.

И тут я вспомнил, что нативные последовательности часто используют для тестирования, а потому измеряют более качественно.
Авторы взяли MPRA этой статьи . Уже по экспериментальному протоколу несмотря на мою биоинформатическую душу я заподозрил, что вот оно. Но вдруг я идиот.

Благо, авторы оригинальной работы выложили датасеты в виде таблиц и там есть сырые каунты. Там тоже считали, сколько было плазмид с такой вставкой (DNA) и сколько мРНК (РНК)

Далее делили одно на другое. Очевидно, точность определения зависит от того, сколько у вас сэмплов. И конечно же в среднем каунтов в случайной библиотеке 46 ДНК и 42 РНК. А в нативной 651 ДНК и 554 РНК. Как точно зависеть будет дисперсия оценки от числа наблюдений для частного двух случайных величин угадывать я не буду, но явно не прямо пропорционально (чем больше наблюдений, тем больше), а скорее обратно пропорционально.
Говоря проще —измерения активностей нативных последовательностей менее шумные. Т.е таки да, авторы опять накосячили.

То, что на нативных последовательностях модели учатся лучше объясняется проще (без привлечения биологии) только тем, что их активность померяна точнее

03/21/2025, 08:00

t.me/pensarata/216

PE

Задумчивая крыса

1 084 subscribers

1

У авторов оставался последний вывод, который казался мне разумным. Что на нативных последовательностях учиться легче, чем на рандомных. Ну вот риал же хочется верить.

И тут я вспомнил, что нативные последовательности часто используют для тестирования, а потому измеряют качественно.
Авторы взяли MPRA этой статьи . Уже по экспериментальному протоколу несмотря на мою биоинформатическую душу я заподозрил, что вот оно. Но вдруг я идиот.

Благо, авторы оригинальной работы выложили датасеты в виде таблиц и там есть сырые каунты. Там тоже считали, сколько было плазмид с такой вставкой (DNA) и сколько мРНК (РНК)

Далее делили одно на другое. Очевидно, точность определения зависит от того, сколько у вас сэмплов. И конечно же в среднем каунтов в случайной библиотеке 46 ДНК и 42 РНК. А в нативной 651 ДНК и 554 РНК. Как точно зависеть будет дисперсия оценки от числа наблюдений я для частного двух случайных величин я не буду, но явно не прямо пропорционально (чем больше наблюдений, тем больше), а скорее обратно пропорционально.
Т.е таки да, авторы опять накосячили.

03/21/2025, 07:58

t.me/pensarata/215

PE

Задумчивая крыса

1 084 subscribers

362

03/21/2025, 06:32

t.me/pensarata/214

PE

Задумчивая крыса

1 084 subscribers

5

386

Во-первых, удивительно, да? Если взять хреновый датасет, то будет плохой результат. А если хороший — хороший.

Во-вторых — выводы в самой статье просто шизофазичные. "У нас трансформеры не работают" — ну откройте бенчмарк, где авторы любят свой MTLucifer. Он там показывает хорошие результаты. Они LegNet запустили через попу (и может какие-то другие решения, но наше все равно в нескольких бенчах выигрывает). Но своё-то они тюнили и результаты хорошие.

Ну и в-третьих — ну вы как-то умудрились, тем не менее, на дрожжах обучить модель, что хуже имеющихся прям не инкрементально, скажем так.

03/21/2025, 06:32

t.me/pensarata/213

PE

Задумчивая крыса

1 084 subscribers

3

1

362

Но это МЫ так думаем. В работе авторы пишут следующее: энхансеры труднее учить.
Булшит.

Почему? Ну во-первых есть объяснения проще (см. выше)

Во-вторых — есть банально датасет Викрама (https://www.nature.com/articles/s41586-024-08430-9), где промоторы и энхансеры предсказывают одинаково хорошо и с высокой корреляцией.

В-третьих — есть уже просто всем использованных DeepSTARR на Дрозофиле, и там тоже все прекрасно предсказывается.

03/21/2025, 06:25

t.me/pensarata/212

PE

Задумчивая крыса

1 084 subscribers

5

331

Тепень смотрим на энхансеры. Почему-то там есть датасет, который на 10000 улетает хорошо так вверх до 0.8. А есть тот, который едва 0.3 набирает.

Дело сразу в нескольких вещах:
1. Фиг его знает, как авторы разбили датасет с 10000 объектов. Он из этой статьи, там не делали машинку. И там опять, если бить случайно, то будет data leakage.
2. Датасет с 0.8 более новый. Проблема с MPRA технологией еще и в том, что она раньше шумела сильнее. Датасет с 0.3 более старый.
3. Опять же, бог его знает, что авторы использовали из статьи про датасет с 0.3. Там есть ровно одна задача, где авторы оригинальной работы подразумевали задачу регрессии. И там 10к последовательностей. И это не MPRA. Окей, допустим переобработали MPRA так, чтобы можно было регрессию строить. Проблема — та методика не позволяла получить активность регуляторной последовательности напрямую. Приходилось в оригинальной работе извращаться, из-за чего только классификационные задачи ставились. У авторов же mpracollection этой проблемы как будто и нет — разделили РНК на ДНК (количество которой как минимум для части данных не было известно, потому на что нормировали-то....).

Подытожим — у нас в обоих случаях есть фиг его знает как полученные цифры для фиг его знает как предобработанных данных (но во втором случае точно не так, как это делали авторы оригинальной работы и вероятно тупо неправильно).

Потому кривые энхансеров нам ничего не говорят.

03/21/2025, 06:10

t.me/pensarata/211

PE

Задумчивая крыса

1 084 subscribers

8

1

330

Вообще я думал, а чего они выложили настолько плохо переваренное нечто. Все же у лаборатории есть приятная и аккуратно сделанная статья по мл.
И есть две причины.
Во-первых, в лаботории прям очевидно нет кросс-коммуникации по проектам. Ибо буквально на месяц ранее от них вышла статья с хоть как-то подбиравшейся для задачи архитектурой. Потому правая рука не знает, что делает левая. Впрочем, учитывая что та статья тоже плохая и абстракт не соответствует тому, что в самой статье — там и голова не знает, что делают конечности. То есть приятная и аккуратная статья скорее приятный и полезный для сообщества сюрприз, нежели следствие какого-то налаженного пайплайна.

Вторая причина интереснее — и авторы, и мы, приглашены в некую инициативу. Без мата описать данную инициативу получается только у моего научника, потому забьем. Но там да, все так же плохо, как и в этой статье. Причем выпилиться из инициативы тоже нельзя, в силу ряда причин. И вот эта инициатива тоже скоро выложит препринт, который тоже будет загаживать область в плане новизны того, что сделают потом. Загаживать ту же область. Потому авторы разбираемого здесь препринта решили идти на опережение и загадить первыми.

Обе причины позволяют помедитировать над состоянием дел в науке. Если вроде бы единица организации этой науки — лаборатория — представляет собой неуправляемый хаос (и это никак не штрафуется показателями) — то наверное все грустно.
Грустнее ли то, что из-за того, что одни срут в область, вторым приходится срать быстрее и более жидко — я хрен знает.

А, ну и да, смешно то, что хаос даже в такой маленькой (по числу людей) области науки, как дл в реггеномике, настолько большой, что есть три с половиной архитектуры, которые еще хоть как-то cross-юзаются людьми*. А все остальное — да похер, что там у других людей в каком-то конкурсе или новой статье. Мы все писатели, а не читатели и вообще быстрее ебашим своё, иначе новизны на nature/science/cell не хватит.

* кстати притом прочитать, как авторы оригинальной работы юзали свою модель, хватает сил уже не у всех

03/21/2025, 03:08

t.me/pensarata/210

PE

Задумчивая крыса

1 084 subscribers

4

2

323

Шакалы из оригинальной статьи.
Тут нам важны синии линии.

Это датасеты на дрожжах. Какие-то из линий во всяком случае.

Там 20 и 30М последовательностей. Это раз.

Два — даже на 100к+ последовательностях простая модель получит корреляцию выше 0.80. Просто нормально построенная модель. Без изысков, из оригинальной работы. У авторов же < 0.8

Три — финальное качество модели на всех данных будет 0.90+. Если брать хорошую (нашу) — 0.97-0.98

Внимание вопрос — какой вывод можно сделать про scaling из рисунка авторов (где плато у датасета уже на 10000 последовательностях)

Ну, тот же, что идет из чтения текста статьи — статья гавно.

03/21/2025, 02:36

t.me/pensarata/209

PE

Задумчивая крыса

1 084 subscribers

6

2

335

Ну и utils.py же.

Каждый пользователь этого чуда очень удивится, когда увидит, что padding надо править руками, ибо он во всех датасетах делается добиванием N СПРАВА. А, а еще обрезаются лишние нуклеотиды тоже СПРАВА.

Ну и reverse какой-нибудь сделать будет офигенно приятно.

Для справки: обычно MPRA штуки содержат конститутивный промотор СПРАВА от себя.
И СПРАВА содержатся наиболее важные нуклеотиды.

А давайте заставим модель либо каждый раз вводить поправку на то что нас в детстве били на то, что важный ПОЗИЦИОННО участок добавлением Nок сместился на сколько-то вбок.
Либо просто пытаться угадать, а какие же важные нуклеотиды мы удалили таким обрезанием.

Мне на самом деле реально очень интересно увидеть версию кода, которая лежит, видимо, только на сервере того же аспиранта. Чисто по-человечески интересно, понял ли он, читая статьи и добавляя датасеты, насколько он неправильно написал то, что написал. Хотя судя по MSE для всех датасетов в статье — не понял.

03/21/2025, 02:13

t.me/pensarata/208

PE

Задумчивая крыса

1 084 subscribers

8

1

344

Ну и так, до мышей докапывание, но когда вся работа сделана настолько стремно, можно и до мышей докопаться.
Пишущий реально не смог посмотреть, что у makedirs есть аргумент exists_ok, который бы делал ему то, что он хочет.

03/21/2025, 02:06

t.me/pensarata/207

PE

Задумчивая крыса

1 084 subscribers

3

1

370

Я молчу о том, что на самом гите (где DEVELOPMENT VERSION должна лежать, как авторы пишут), не лежит NIHуя.

Там лежит ровно один файл хоть с каким-то возможно используемым кодом. utils.py с чем-то..

И еще cli.py. Скрин всего файла привожу.

Последний коммит более полугода назад.

И я тем более молчу про claim из абстракта статьи.
Using this collection, we build sequence-to-function (S2F) predictive models of regulatory elements and analyze these models to uncover insights into the relationship between training data requirements, experimental design, and model generalizability.

Кто сможет найти в статье что-то про указанное — экстрасенс, не меньше. Сетка — ну, как у предыдущих авторов, нда. Scaling laws мое почтение. Я-то думал, они зависят от модели и корректнее все же брать что-то нормальное.

Ну и конечно авторы абсолютно забили на разную природу данных, о чем сами пишут. В результате их бездумная оптимизая MSE на всех датасетах — ну .. интересное решение.

Видимо, опять будет история с "package will be released upon manuscript publication"

03/21/2025, 01:54

t.me/pensarata/206

PE

Задумчивая крыса

1 084 subscribers

10

3

380

Это пакет. Препринт выложили. Как скачать данные — а никак, нахер идите. Они у аспиранта НА СЕРВЕРЕ ЛАБЫ И ЕМУ ОК ЭТО В PIP КЛАСТЬ.

Обидно, ибо дипломник делает похожее, но в разы качественнее. Деталей писать не буду, но думаю, проблем с использованием не будет.

Да и идеалогия пакета другая, потому ситы "вы публикуете тоже самое" не будет. Я б наоборот, с радостью взял у людей то, что они напроцессили, а мы нет (есть несколько датасетов вроде), и процитировал. А потом добавил плюшек, которыми и планируем побеждать.

Но имхо публиковать что-то подобное в таком качестве — просто хамство.

Последний автор — ведущий спец в регуляторной геномике.

03/21/2025, 01:39

t.me/pensarata/205

PE

Задумчивая крыса

1 084 subscribers

3

1

401

Ну и по классике они взяли датасет, полученный насыщающим мутагенезом в промоторах и рандомно разделили его на обучение, валидацию и тест. Не надо так делать.

C другой стороны, там вся работа это кек. Тот случай, когда не улучшать надо, а сжечь и начать заново.

Вроде датасет взяли интересный, я пропустил его. Надо проверить.

Нет, я честно не могу понять. Они цитируют статьи, по которым ну можно хотя бы прикинуть, как нужно учить сети такие. Бог с ним, что разбили неправильно, там такие данные, что разбить нормально и не рандом получить (вероятно) не получится.
Но если вы в 2025 году не для учебной задачи просто соединяете друг за другом конволюционные слои хотя бы не как в ResNet — это повод задуматься, а точно ли вы в науке собрались что-то делать.

03/21/2025, 01:02

t.me/pensarata/204

PE

Задумчивая крыса

1 084 subscribers

4

1

421

На самом деле иронично, что авторы цитируют работу с нормальными нейросетями (и методами их интерпретации ну хоть как-то работающими), но все равно решили строить свой велосипед. У последнего автора Хирш 30, но видимо это не помогает в такой сложной задаче, как прочесть статью, которую цитируешь.

03/21/2025, 00:57

t.me/pensarata/203

PE

Задумчивая крыса

1 084 subscribers

427

Что-то новое в мире кластеризации

03/21/2025, 00:49

t.me/pensarata/202

PE

Задумчивая крыса

1 084 subscribers

23

6

1.1 k

Вообще удивительно высокая цена за возможность развить вдобавок к своим проблема еще и новые. РПП например. Ибо Якутенко на полном серьезе советует весы носить в рестораны, чтобы КАЛОРИИ* правильно считать.

* не спрашивайте как она на глаз определяет сколько г масла положили в салат и жирность мяса. Чтобы граммы в целом хоть что-то говорили.

03/19/2025, 20:24

t.me/pensarata/201

PE

Задумчивая крыса

1 084 subscribers

48

18

1.2 k

Тут мне кинули лол.

Объясняю: я знаю психотерапевта, который ПТСР (разумеется, не только его) у людей лечит успешно, и у него ценник в 1.5-2 раза меньше.

А тут людям, без стыда и совести, предлагают хероты на 23к.

03/19/2025, 19:56

t.me/pensarata/200

PE

Задумчивая крыса

1 084 subscribers

Repost

8

2

310

03/18/2025, 14:23

t.me/pensarata/199

PE

Задумчивая крыса

1 084 subscribers

16

313

Про сломать лектора я помню я так психолога на 6м курсе нам читавшую сломал. Она литералли после моих вопросов на второй паре начала читать в два раза медленнее и почему-то заикаться (оставшийся семестр).

03/18/2025, 14:23

t.me/pensarata/198

PE

Задумчивая крыса

1 084 subscribers

29

2

359

Коты и голубь, фото в цвете.

Мелкий серый научил большого материться на птиц.

03/18/2025, 12:22

t.me/pensarata/197

PE

Задумчивая крыса

1 084 subscribers

40

5

419

Общение с зарубежной бюрократией и ускорение процессов, когда им написал завлаб, напомнило анекдот

Барин приезжает в свое имение. На следующий день идет с управляющим и
осматривает свои владения. Идут тропой, которая неожиданно упирается в
ручей.
- Слушай, Прохор, - говорит барин управляющему, - к следующему моему
приезду в имение, сделай так, чтобы мы могли этот ручей посуху перейти -
ну какой-нибудь мостик сделай, на худой конец доску обыкновенную брось,
но токмо, не порти такой приятной прогулки.
Короче, неделю барин в этом имении побухал и уехал. Через год опять
приезжает, опять делают с управляющим обход, подходят к ручью, а там
ничего. Барин вздыхает и ничего не говоря, "заезжает" управляющему в
ухо. Тот падает, барин молча уходит. На следующий день барин пошел на
охоту, подходит к ручью в болотных сапогах, а там мост расписной.
Подзывает управляющего:
- Послушай, Прохор. Как так, год не могли доску кинуть, а тут за ночь сделали, что некоторым и за год не подсилу сделать?
- Не было твердой команды, барин.

03/17/2025, 23:42

t.me/pensarata/196

PE

Задумчивая крыса

1 084 subscribers

26

428

Яндекс перевод таки переводит Penzar как Пензарь.

Ну, никогда не любил Яндекс, что ещё сказать.

03/16/2025, 22:56

t.me/pensarata/195

PE

Задумчивая крыса

1 084 subscribers

4

2

336

Ладно, тут сам бог обязывает. Изначальную статью читал и она крутая. Почему?
Потому что часто мы хотим выбрать важные признаки в входах нейросетки. А сделать это крайне нетривиально.

Предложенный вариант — по сути не давать сетке смотреть больше чем на K фичей, зануляя остальные. При этом, какие фичи не занулять, сетка выбирает сама.
Я проверял на игрушечных данных — работает неплохо.

Что же делают биологи, которые не учились ml или учились на всяком мусоре типо msu.ai ?

Они накладывают на слой, принимающий признаки, L2-регуляризацию. Мол сеть таким образом важным признакам присвоит большие значения, а неважные — занулит.
Не работает это потому, что сетка не дура, и просто все признаки сделает очень маленькими, а на следующих слоях компенсирует это увеличением весов.
Я уж молчу о том, что признаки могут быть коррелированы, но это в принципе проблема многих подходов.

Наверное, хоть чуть разумнее сделать L1-регуляризацию, ибо при оптимизации такого лосса на веса слоя, совсем бесcмысленные веса в идеале будут зануляться. Но это тоже вилами по воде.

03/11/2025, 15:35

t.me/pensarata/194

PE

Задумчивая крыса

1 084 subscribers

Repost

8

3

313

Конкретный автоэнкодер [2019] и его улучшение [2024]

Итак, обычно в автоэнкодерах мы решаем задачу сжатия изначального вектора фичей в пространство маленькой размерности. Мы обучаем энкодер q(z|x) и декодер p(x|z) таким образом, чтобы у нас получалось восстановить изначальный вектор x из вектора скрытых переменных z.

Конкретный автоэнкодер ставит задачу более интересным образом - вместо перевода вектора фичей в скрытое пространство мы хотим выбрать список фичей в x, который и будет этим самым вектором скрытых переменных.

Иначе говоря, какие фичи содержат наибольшее количество информации, которое позволит восстановить исходный вектор x наилучшим образом? Конкретный автоэнкодер решает именно эту задачу.

Слово "конкретный" в названии - "concrete" - на самом деле сокращение от Continuous Discrete - это параллельное изобретение того самого Gumbel Softmax трюка, который я описывал в позапрошлом посте.

Единственным параметром энкодера является матрица KxN - размерность скрытого вектора на кол-во фичей. В каждой строке у нас находится обучаемый вектор "логитов" для каждой фичи, к которому мы применяем Gumbel Softmax и получаем soft one-hot вектор-маску для всех фичей, которую затем скалярно умножаем на исходный вектор фичей - получая таким образом дифференцируемую аппроксимацию выбора одной фичи из всего списка.

Делая это независимо K раз, мы выбираем K фичей, которые и становятся выходом энкодера. В базовой статье про конкретный автоэнкодер иллюстрация на MNIST демонстрируют способность такой схемы обучиться игнорировать пиксели по краям и при этом задействовать по 1 пикселю из всех остальных частей картинки, никогда не беря соседние. Эксперименты на других датасетах там тоже есть.

Indirectly Parameterized CAE - улучшение данного подхода. Я с CAE не развлекался, но утверждается, что у базовой модели есть проблемы со стабильностью обучения, а также она почему-то всё же дублирует фичи по несколько раз, что, вроде как, тоже связано с этой нестабильностью.

Один простой трюк очень сильно улучшает ситуацию. Вместо обучаемой матрицы KxN используется Indirect Parameterization - эта матрица вычисляется как функция от 3 обучаемых штук: умножения матрицы KxN на матрицу NxN и прибавления вектора размера N к каждой строке результата.

Честно говоря, в статье не хватает нормальной мотивации и интуиции, но, судя по результатам, у них это обучается гораздо лучше бейзлайна и всегда выдаёт уникальные фичи.

Главный вопрос - а нахрена вообще всё это нужно?

Внезапно эта идея имеет отличное практическое применение в нейросетях, а именно для проведения Feature Selection! В ситуации, когда обучать сеть супердорого и вы можете позволить это делать единичное число раз, а фичей у вас тысячи, использование Конкретного Энкодера в самом начале модели позволяет обучить Selection K фичей из N напрямую. При этом, если качество модели совпадает с качеством изначальной модели, можно смело выкидывать из прода целых N-K фичей.

Коллеги рапортуют о том, что у нас это заработало, так что, с чистой совестью делюсь хаком.

@knowledge_accumulator

03/11/2025, 15:11

t.me/pensarata/193

PE

Задумчивая крыса

1 084 subscribers

24

461

Отдельный бонус Артемию, приславшему мем, за то, что я родом из Молдавии.
Ratus Nosferatus, так сказать

03/06/2025, 20:59

t.me/pensarata/192

PE

Задумчивая крыса

1 084 subscribers

Repost

8

314

#на_основе_подписчика
Когда просишь секретаря диссовета поставить подпись на автореферате, написанном на старославянском

03/06/2025, 20:58

t.me/pensarata/191

PE

Задумчивая крыса

1 084 subscribers

Repost

36

4

315

03/06/2025, 19:14

t.me/pensarata/190

PE

Задумчивая крыса

1 084 subscribers

61

542

I'm the doctor

03/05/2025, 23:25

t.me/pensarata/189

PE

Задумчивая крыса

1 084 subscribers

8

1

547

Как можно начать с некой стартовой последовательности и прийти к чему-то интересному за счет процедуры оптимизации

Пример картинки из статьи. Красиво и по делу.

03/05/2025, 03:32

t.me/pensarata/188

PE

Задумчивая крыса

1 084 subscribers

5

10

527

Вышел хороший обзор от Stein Aerts про моделирование. https://www.nature.com/articles/s44222-025-00280-y

Много хороших ссылок и полезных замечаний. Красивые картинки. Мимоходом сказано, что днк-модели не работают (я кстати говорил с Stein и это его личный опыт — они работали хуже всего для его задач). Особенно интересно про попытки дизайна регуляторных элементов без моделей машинного обучения. Эти статьи плохо ищутся и до этого я их честно тыбзил из доклада научника. Который в области дохреналион лет. Теперь же есть обзор, где собраны эти статьи, и еще сверху навалено добра.

Есть (конечно) моменты, что меня раздражают:
1. LegNet не цитируется, ибо мы не из тусовки, хотя диффузию мы применили раньше тусовочников (и опубликовали в рецензируемом журнале)
2. Не цитируется даже пакет из статьи тусовочников же, где мы тоже есть. Зато цитируются по большей части бесполезные пакеты других групп (типо gRELU и парочка, про которые я даже и не слышал). К чести сказать, полезность prixfixe из нашей статьи у меня тоже вызывает сомнения. Лучше юзать legnet напрямую, а еще лучше мозг. Но в prixfixe хоть legnet и DREAM-RNN это реально работающие модели, которые действительно сравнительно легко применить.*
3. Цитируется ужасная и пустая статья-обзор про интерпретируемость моделей Новаковского (https://www.nature.com/articles/s41576-022-00532-2). Статей-обзоров про интерпретируемость в биологии хороших я в принципе не видел, но можно ж ссылки на сами применения интерпретируемости дать.

* вообще надо понимать, что все эти пакеты в мире регуляторной геномики про "вот вам пакетик, модель запустили, все сразу сработает" это как минимум хайп, а часто и вранье. Вранье это когда даже запустить этот пакет без слез нельзя — он сделан так, чтобы быть опубликованным и забытым. А хайп ибо под конкретную задачу даже простым тюном не из пакета, а основанным на базовых знаниях DL вы выбьете спокойно +5%-10% performance. Если не больше. И польза от этих пакетов либо в датасетах, которые можно оттуда вырезать. Либо в идеях моделей и их обучения. Которые тоже надо аккуратно вырезать.

03/05/2025, 02:48

t.me/pensarata/187

PE

Задумчивая крыса

1 084 subscribers

15

2

542

Следующая версия модели Evo с большой вероятностью будет обучена ещё и на метагеномах. Чтоб emergent abilities ещё лучше было видно. Предлагаю называть ее не скучно и пресно Evo3, а использовать что-то более броское. Например

Evo-Shit (Evo enhanced via Sequence Homology and Information Transfer)

03/05/2025, 01:33

t.me/pensarata/186

PE

Задумчивая крыса

1 084 subscribers

6

520

03/05/2025, 01:13

t.me/pensarata/185

PE

Задумчивая крыса

1 084 subscribers

4

6

494

Честные бенчмарки не заставили себя долго ждать. Что с лицом, Evo2? Опять консервативность побила emergent abilities:?

Кстати эффект не скейлинга, а того, что в выборке были млеки. GPN-MSA есть для референса. Но таков уж чудесный мир науки, что нужно формировать сэндвич с критикой посередке.

03/05/2025, 01:13

t.me/pensarata/184

PE

Задумчивая крыса

1 084 subscribers

Repost

8

3

268

Заполняю планы по публикациям для институтской отчетности. В этом году мы переходим на "белый список журналов" - для тех, кто не в курсе, это РАН совместно с Минобром отрейтинговало все журналы, чтобы не использовать данные из зарубежных систем цитирования (вроде WOS/Scoupus).

Посмотрел рейтинги журналов, в которых мы публикуемся. Для высокоимпактных журналов все логично, они все относятся к 1ой категории. А вот с более низким уровнем что-то странное, например

NAR Genomics & Bioinformatics, Scopus Q1, IF~4 - во 2ой категории
При этом ВОГиС - Scopus Q2, IF<0.5 - в 1ой категории.

Ну ладно, можно предположить, что мы поддерживаем отечественные журналы. Но тогда почему Биохимия, самый высокоимпактный Российский журнал по биологии (Scopus Q2 и IF~2.5) - относится ко 2ой категории?

Upd: в комментариях объяснили логику. У Биохимии издатель зарубежный, так что ее рейтингуют как зарубежный журнал, а у ВОГиС - Российский издатель, его рейтингуют в сравнении с журналами РФ

03/03/2025, 07:35

t.me/pensarata/183

PE

Задумчивая крыса

1 084 subscribers

18

4

351

Статья опубликована https://academic.oup.com/bioinformatics/article/40/10/btae578/7777162
в 2024 году. В сентябре.
Сервис уже недоступен

02/28/2025, 22:48

t.me/pensarata/182

PE

Задумчивая крыса

1 084 subscribers

22

2

325

Справа — Гордей. Слева — поилка, крышку которой он спецом наклоняет. Пьет из крана.
Вопрос — зачем?

02/27/2025, 12:27

t.me/pensarata/180

PE

Задумчивая крыса

1 084 subscribers

2

320

02/27/2025, 12:27

t.me/pensarata/181

PE

Задумчивая крыса

1 084 subscribers

1

02/27/2025, 12:24

t.me/pensarata/179

PE

Задумчивая крыса

1 084 subscribers

Repost

5

3

245

#пост_по_регламенту

Продолжаем выкладывать трудолюбиво собранные нашим Зоопарком папки, которые, как нам кажется, уже более или менее готовы. Если кто не нашел себя - пишите ЛС, проверим (ну либо стучитесь, когда будем пробовать сделать такой сбор еще раз).

Вот симпатичная папка разных каналов по физике (15 штук), а вот по биологии (или, шире, биомеду) - тут 24 канала.

Смотрите, добавляйте каналы по вкусу и наслаждайтесь :)

02/25/2025, 19:43

t.me/pensarata/178

PE

Задумчивая крыса

1 084 subscribers

Repost

15

8

232

LLM-Microscope: трансформеры хранят контекст в запятых и артиклях

Как писал выше — мою новую статью приняли на NAACL 🎉
Мы обнаружили, что самыми контекстуализированными токенами в языковых моделях являются... артикли и знаки препинания! Именно в них хранится больше всего информации о контексте.

Мы научились измерять, сколько контекстной информации "помнит" каждый токен, и оказалось, что существительные и глаголы сильно проигрывают по этому показателю всяким "the", запятым и точкам. Если удалить эти "незначительные" токены из текста (даже если с помощью GPT-4 удалить только не влияющие на смысл токены), то качество работы моделей резко падает, особенно на длинных текстах.

Ещё из интересного — токены, активации на которых хранят больше контекста, имеют более линейные преобразования между слоями (привет моей прошлой статье про линейность трансформеров).

Весь код для анализа внутренностей LLM (измерение контекстуальности токенов, нелинейности, logit lens и прочее) выложили в открытый доступ.

Статья, GitHub

02/24/2025, 12:54

t.me/pensarata/177

PE

Задумчивая крыса

1 084 subscribers

3

246

Очень красивая история (про линейность трансформеров тоже)

02/24/2025, 12:54

t.me/pensarata/176

PE

Задумчивая крыса

1 084 subscribers

2

357

02/20/2025, 22:13

t.me/pensarata/174

PE

Задумчивая крыса

1 084 subscribers

2

377

02/20/2025, 22:13

t.me/pensarata/175

PE

Задумчивая крыса

1 084 subscribers

14

2

343

Twitter выводит мне в топ моей ленты критические комментарии людей. Спасибо ему за это.

02/20/2025, 22:13

t.me/pensarata/173

PE

Задумчивая крыса

1 084 subscribers

1

4

437

В этом плане кстати интересно выглядит вот эта статья, никак не доберусь разобраться. https://www.nature.com/articles/s41587-024-02511-w
Ибо что днк-модель может улучшить alignment-based метод предсказания я вполне допускаю.

02/20/2025, 16:41

t.me/pensarata/172

PE

Задумчивая крыса

1 084 subscribers

7

5

436

Есть кстати в Evo2 и плюс. Они литералли туда засунули весь NCBI genome датасет.
А размер обучаемых моделей наравне с успешно работающими языковыми.

Так что ща свидетели прихода ДНК моделей побегают с криками о том, как все круто.

Потом кто-то честно пробенчит 7B и 40B Evo на нормальных задачах.

Там нихрена не будет работать. Там и так на zeroshot видно, что все работает не оч.

Можно будет увлеченно наблюдать как адепты будут объяснять, что ДНК оно сложнее натуральных языков и потому нам нужные ещё бОльшие модели и ещё больше данных, чтобы увидеть Чудо Скейлинга.

На то, что в случае с языковыми моделями крутые скачки в результатах были на всем протяжении от word2vec до chatgpt. А в случае ДНК моделей модели все больше, а толку все меньше качество устойчиво никуда не растет, днк-адепты предпочтут забить.

Раздражает только то, что они сами иронии ситуации не поймут, так как память золотой рыбки "Верую ибо абсурдно"

Update по мотивам разговора с коллегой:
Ну и да, то, что это запутает кучу новичков в области, еще и деньги из области отвлечет на апофению — тоже расстраивает. Но это норма уже.

02/20/2025, 16:20

t.me/pensarata/171

PE

Задумчивая крыса

1 084 subscribers

Repost

7

12

350

Пока небольшой комментарий к новостям про то, что Майкрософт создали какой-то супер-пупер квантовый компьютер. Спойлер алерт: это все обман, чтобы набрать классы.

Но по порядку. Квантовые компьютеры делают из разных кубитов: некоторые используют сверхпроводящие микросхемы (как IBM и Google), некоторые — ионы (IonQ например), некоторые — фотоны (Xanadu). Ну и есть много других вариантов. Самая большая проблема с квантовыми компьютерами в том, что квантовая запутанность в них очень легко разрушается минимальным внешним воздействием. Поэтому эти комьютеры стараются изолировать от внешнего мира как можно лучше: засовывают в супер-криостаты, используют лучшие материалы и т.д.

Среди этих подходов выделяется один: топологические квантовые компьютеры. Точную работу описать довольно сложно, но попробую такую аналогию. Представьте, что у вас есть железная дорога типа Brio и вы можете катать по ней туда-сюда вагончики. А еще можете пересекать пути, делать мосты и т.д. Общая структура вашей дороги (как именно они пересекаются, сколько пересечений и между какими путям и т.д.) является ее топологией. В этих пересечениях реализуются вентили компьютера (т.е. логические операции). Так вот, внешний мир действует на вагончики: они то тормозят, то ускоряются, то вибрируют, то вообще пропадают. В обычном квантовом компьютере это является основной проблемой: квантовые состояния (вагончики) разрушаются, появляются ошибки. Но в топологическом квантовом компьютере операции зависят не от одиночкых вагончиков, а от общей структуры путей, а она остается постоянной и не подвержена влиянию внешнего мира (почти). Потенциально это очень мощный инструмент для реализации квантовых компьютеров, так как ему не страшен внешний мир.

На практике никто не знает, как именно это сделать. Вагончики должны быть очень специальными, чтобы реализовать такой компьютер. Это должны быть квазичастицы, которые называются анионы и обладают очень необычными свойствами. Они существуют в определенных двумерных материалах в определенных условиях (возможно). Майорановские фермионы, о которых вы слышали в новостях про Майкрософт — пример таких частиц.

Ура, введение готово, пора перейти к драме. Пока IBM и Google соревнуются за количество кубитов и пытаются как-то найти способ увеличить их до полезной величины, Microsoft пошли другим путем и пытаются создать топологический квнатовый компьютер. Если у них это получится, они обойдут всех на повороте и унесутся за горизонт. Но пока попытки, мягко говоря, не внушают доверия.

Из года в год они публикуют результаты про открытие и изучение этих самых Майорановских фермионов в самых престижных журналах. Из года в год в этих результатах находят ошибки, неверную статистику и прямой подлог и статьи отзываются (таких статей уже набралось не одна и не две, можно вот тут эпичный тред посмотреть). Т.к. это майкрософт, публиковать данные они отказываются (NDA и все такое) и верифицировать никак не получается. Но на каждой статье они собирают хайп, лайки и инвестиции — что еще нужно. Вот и нынешние "новости" — ровно из той же оперы. Те же авторы, один из рецензентов — главный автор прошлых отозванных статей, те же проблемы с данными и их доступностью, и т.д. Нет никаких оснований доверять этому. В целом, научное комьюнити давно уже крутит пальцем у виска, и главной загадкой остается вопрос, почему их вообще продолжают публиковать (хотя это и не загадка никакая, всем все понятно, кто за этим стоит).

В общем, не верьте хайпу! Я нарочно не даю ссылки на новости или статью, чтобы не разгонять этот хайп дальше. В целом, любые новости про квантовые компьютеры всегда можно делить на 10-100, но в особенности когда говорят про "прорыв, которого еще никогда не было". Это уж почти наверняка какая-то лажа.

02/20/2025, 12:06

t.me/pensarata/170

PE

Задумчивая крыса

1 084 subscribers

4

456

Сита с Evo2 +- такова. С поправкой на то, что в области пока не так много денег, интереса и прочего аккумулировано.

Потому целенаправленных разносов никто не публикует, а просто в независимых бенчах почему-то крутые модели не такие крутые оказываются

02/20/2025, 12:06

t.me/pensarata/169

PE

Задумчивая крыса

1 084 subscribers

15

5

442

И да, я почти уверен, что и это Science/Nature переварит. Ибо уважаемых людей в состав статьи позвали. И уважаемых учеников уважаемых людей. А уважаемые люди и их друзья и будут рецензировать.

02/20/2025, 11:54

t.me/pensarata/168

PE

Задумчивая крыса

1 084 subscribers

21

57

1.4 k

Про Evo1 я уже писал. Вчера вышла Evo2. Претензии те же самые, авторы никак на них не ответили во второй работе.
Нужно ли детально разбирать а в чем новые проблемы? Мое имхо — хватает и старых. Разбирать подробно где обжулили дополнительно к первой работе — влом. Потому кратко.

В новых "применениях" авторы настойчиво
1) не комментируют ситуации, когда их модель не лучше простых подходов 10летней давности
2) исключают очевидные сравнения и соты в задаче (в сплайсинге не приводят качество той же spliceai, а там разрыв кратный)
3) исключают некоторые очевидные задачи (нет датасета кирхера о влиянии мутаций. Который удобнее для анализа чем клинвар и чище)
4) вся часть с генерацией является самосбывающиеся пророчеством. Мы генерим тексты и они похожи на обучающую выборку — amazing. На альфафолде, который известен тем, что для похожих последовательностей предсказывает похожие структуры несмотря на биологию — показываем, что на наших сгенерированных генах (похожих на трейн) он предсказывает похожие на трейн структуры
5) особо (для меня) смешное с генерацией региона с открытым хроматином — используют Enformer, который известен тем, что на последовательностях отличных от генома предсказывает плохо. А на посл. из генома предскажет то же, что было в геноме. Причем предскажет картинк "в среднем" по клеточным линиям.

Особо доставляет, что у авторов скейлинг модели (увеличение числа параметров) работает примерно никак. Иногда даже хуже качество выходит. Но — 40B параметров же зато. Мда.

В самой статье интересна (не для биологии или мл в биологии) только архитектура и способ интерпретации. Для биологии он им тупо вытащил частые кмеры, которые они нашли в базе мотивов тф (удивительно для человека, если он ничего не знает про эволюцию тф и их участков связывания, и/или был в коме/на острове без доступа к высокоимпактным журналам годиков этак 10).

Не хотел бы писать резко, но коль некоторые каналы позволяют себе писать волчьи цитаты, что "пока одни сомневаются, другие двигают frontier", напишу.

Любой, кто скажет, что Evo2 — хорошая статья и какой-то там breakthrough:
1) свидетель прихода ДНК-моделей. Не учёный, а верующий. У всех есть право вероисповедания, но это не наука
2) не читал дальше абстракта и/или твиттер треда
3) банально некомпетентен
4) комбинация трёх первых пунктов

02/20/2025, 11:46

t.me/pensarata/167

PE

Задумчивая крыса

1 084 subscribers

23

3

339

Это мой любимый сериал.
Каждый сезон охереннее другого.

02/14/2025, 21:49

t.me/pensarata/166

PE

Задумчивая крыса

1 084 subscribers

40

280

Отправил. Теперь ждём

02/14/2025, 16:17

t.me/pensarata/165

PE

Задумчивая крыса

1 084 subscribers

53

5

296

Итак, моя работа фактически по генетике. Защита 5го марта. 5го марта 1953 года умер И.В. Сталин

Выбор даты защиты — моё почтение.

02/08/2025, 18:29

t.me/pensarata/164

PE

Задумчивая крыса

1 084 subscribers

42

4

326

Любимый анекдот моей мамы в моем детстве

Сидят Маугли и Каа на ветке.
Маугли увидел на вершине какой-то банан и спрашивает у дремлющего КАА:
— Каа, а бандерлоги до того банана достанут?
Каа очнулся, посмотрел, говорит:
— Достанут.
Маугли посидел, ножками поболтал и спрашивает:
— Каа, а сильный Балу до того банана достанет?
Каа вздрогнул, очнулся, говорит:
— И сильный Балу достанет.
Маугли посидел, поймал муху, послушал у уха, съел и спрашивает:
— Каа. Каа...
— У.
— Каа, а ловкая Багира до того банана достанет?
— Достанет, достанет.
Маугли еще ножками поболтал, макушку почесал, за бабочкой посмотрел, толкает Каа:
— Каа, а Каа, а я до того банана достану?
Каа, переворачиваясь на другой бок:
— Достанешь, Маугли, достанешь. Ты, с@ка, кого угодно достанешь...

Это я к чему, свитшоты от РНФ топовые

02/08/2025, 14:57

t.me/pensarata/163

PE

Задумчивая крыса

1 084 subscribers

8

326

Третий раз всплывает реклама уже за по сути полдня. Сколько она этой рекламы закупила. Бесит неимоверно. Реклама, блин, научпоп лекции. Ничего не жалеет чтоб народ просветить, ага.

Update: 4 раза.

02/08/2025, 09:44

t.me/pensarata/162

PE

Задумчивая крыса

1 084 subscribers

2

335

02/07/2025, 13:40

t.me/pensarata/161

PE

Задумчивая крыса

1 084 subscribers

20

1

324

Смотрю нормальное видео и тут реклама Якутенки, где она представляется молекулярным биологом (коим не является) и рекламит свою лекцию. Здец. Я ел вообще-то

02/07/2025, 13:40

t.me/pensarata/160

PE

Задумчивая крыса

1 084 subscribers

4

259

Очень классный talk. К сожалению вопросы они обрезают, но и так послушать интересно. По идее запись должны выложить в течении месяца. Но организатор, как я понял, будет меняться, потому может и дольше

02/05/2025, 20:23

t.me/pensarata/159

PE

Задумчивая крыса

1 084 subscribers

36

6

252

Диссертацию опубликовали на сайтах диссертационной комиссии и она прошла проверку на антиплагиат (конечно же заимствования обнаружились в списке литературы, ага).
Выкладываю здесь версию оной. Возможно, буду в свободное время туда дописывать какие-то моменты, ибо даже пока я ее писал приходилось постоянно добавлять новые истории из области.
https://docs.google.com/document/d/1xoU3dzAaRYNa6Tky9_mcNIjRuAA1CyEt9TicSCekWHg/edit?usp=sharing

Я вполне готов ответить на вопросы по ней. Если кто-то не согласен с тезисами, выдвигаемыми там — тоже feel free to discuss. Воспринимаю это и как тренировку перед защитой, и как возможность придумать новые идеи и задачи.

02/05/2025, 18:23

t.me/pensarata/158

PE

Задумчивая крыса

1 084 subscribers

23

3

220

"""Одна из главных проблем работы таких моделей — это непосредственно геном человека."""

Жужужу, я не вывожу

Да, единственная проблема в коде — она, как известно, в коде ДНК.

02/04/2025, 15:03

t.me/pensarata/157