Página do canal Telegram: gonzo-обзоры ML статей • @gonzo_ml

22 077 assinantes

10

43

2.1 k

Работы, на которые надо обратить внимание

https://blog.iclr.cc/2025/04/22/announcing-the-outstanding-paper-awards-at-iclr-2025/

24.04.2025, 02:07

t.me/gonzo_ml/3584

GO

gonzo-обзоры ML статей

22 077 assinantes

7

28

3.2 k

Just in case, бахнул авторазбор статьи про iCoT (https://arxiv.org/abs/2405.14838), которую упоминали в разборе Coconut'а (https://t.me/gonzo_ML/3567). По мне так довольно полезно уже.

https://t.me/gonzo_ML_podcasts/117

23.04.2025, 14:21

t.me/gonzo_ml/3583

GO

gonzo-обзоры ML статей

22 077 assinantes

4

2.5 k

21.04.2025, 14:41

t.me/gonzo_ml/3581

GO

gonzo-обзоры ML статей

22 077 assinantes

4

2.6 k

21.04.2025, 14:40

t.me/gonzo_ml/3580

GO

gonzo-обзоры ML статей

22 077 assinantes

3

2.4 k

21.04.2025, 14:39

t.me/gonzo_ml/3579

GO

gonzo-обзоры ML статей

22 077 assinantes

5

2.1 k

21.04.2025, 14:39

t.me/gonzo_ml/3578

GO

gonzo-обзоры ML статей

22 077 assinantes

3

1.8 k

21.04.2025, 14:39

t.me/gonzo_ml/3577

GO

gonzo-обзоры ML статей

22 077 assinantes

4

1.8 k

21.04.2025, 14:39

t.me/gonzo_ml/3576

GO

gonzo-обзоры ML статей

22 077 assinantes

3

1.7 k

21.04.2025, 14:38

t.me/gonzo_ml/3575

GO

gonzo-обзоры ML статей

22 077 assinantes

3

1.7 k

21.04.2025, 14:38

t.me/gonzo_ml/3574

GO

gonzo-обзоры ML статей

22 077 assinantes

3

1.6 k

21.04.2025, 14:38

t.me/gonzo_ml/3573

GO

gonzo-обзоры ML статей

22 077 assinantes

3

1.6 k

21.04.2025, 14:38

t.me/gonzo_ml/3572

GO

gonzo-обзоры ML статей

22 077 assinantes

4

1.6 k

21.04.2025, 14:37

t.me/gonzo_ml/3571

GO

gonzo-обзоры ML статей

22 077 assinantes

4

1.7 k

21.04.2025, 14:37

t.me/gonzo_ml/3570

GO

gonzo-обзоры ML статей

22 077 assinantes

16

11

1.6 k

Тестируют подход на трёх датасетах с математическим (GSM8k) и логическим ризонингом (ProntoQA, и новый ProsQA).

Проверяют на предобученной GPT-2. Для математики используют две латентных мысли (c=2) на каждый шаг ризонинга, три этапа (stages, k=3) и обучают шесть эпох на первом этапе и три на остальных. На логике одна латентная мысль на шаг, шесть этапов, обучают пять эпох на этап.

В сравнении используются следующие бейзлайны:
1) обычный CoT с файнтюнингом модели на примерах
2) No-CoT, с обучением модели сразу выдавать ответ
3) iCoT, implicit CoT из https://arxiv.org/abs/2405.14838, который постепенно интернализировал промежуточные шаги рассуждений через последовательный файнтюнинг, там шаги по одному выбрасывались, а в Coconut вместо них появляются латентные шаги, что по идее даёт модели “подумать” побольше.
4) Pause token, когда между вопросом и ответом вставляются специальные токены (столько же, сколько continuous thoughts у кокоса) -- никакой цепочки размышлений тут нет, но дополнительные токены могут дать модели дополнительные вычислительные возможности.

Сам Coconut тоже проверяют в трёх режимах:
1) w/o curriculum без мультиэтапного обучения, сразу берутся данные с последнего этапа, где уже нет языковых мыслей, есть только латентные.
2) w/o thought с мультиэтапным обучением и постепенным убиранием языковых шагов рассуждения, но без использования непрерывных латентных мыслей -- по сути похоже на iCoT, но процедура обучения из Coconut
3) Pause as thought c заменой непрерывных мыслей на токены и сохранением мультиэтапной процедуры

🏁 Результаты

Coconut стабильно лучше LLM без CoT, и лучше CoT на логических задачах. На GSM8k обычный CoT лучше, но у Coconut растёт качество с увеличением числа мыслей на шаг (насыщения там не видно до двух мыслей на шаг, но в приложении попробовали три и там стало хуже, видимо из-за проблем в обучении, нужно что-то менять в процедуре).

Токенов у Coconut при этом меньше в разы.

Coconut с pause as thought в целом тоже неплохо работает, но обычный Coconut лучше.

На авторском датасете ProsQA, где предсказание следующего шага не очень помогает и надо планировать и искать по более сложному графу, обычный CoT не лучше No-CoT, зато Coconut или iCoT существенно улучшают ситуацию.

Без мультиэтапной процедуры с curriculum модель плохо выучивает ризонинг в латентном пространстве. В идеальном мире она бы сама выучила наиболее эффективные непрерывные мысли через бэкпроп, но чего-то не хватает.

Хоть Coconut и призван обходиться без перехода в пространство токенов, это по-прежнему можно делать, если хочется. В одном примере авторы декодировали первую непрерывную мысль и увидели там токены, которые ожидались в промежуточном рассуждении. Это прикольно в плане интерпретируемости.

🔍Анализ

У модели есть интересная возможность переключаться между ризонингом языковым и в латентном пространстве. Авторы дополнительно покопались в латентном ризонинге.

Проверили работу модели на датасете ProsQA с разным числом латентных мыслей, от нуля до шести. Разница здесь только в инференс тайме, модель одна и та же. Также дополнили мультиэтапную процедуру обучения, чтобы модель не забывала более ранние этапы, так что с вероятностью 0.3 замешиваются данные от других этапов.

Сделали более гранулярную классификацию качества ответа модели, теперь есть не просто корректность конечного ответа, а более детальные типы:
1) Correct Path — верный кратчайший путь в графе
2) Longer Path — верный, но не кратчайший
3) Hallucination — путь содержит несуществующие рёбра или несвязный
4) Wrong Target — путь валиден, но не к тому узлу
5) Correct Label и (6) Incorrect Label — для методов, где можно получить только финальный ответ

Ожидаемо, с увеличением количества непрерывных мыслей корректных результатов становится больше. Галлюцинации тоже уходят.

21.04.2025, 14:36

t.me/gonzo_ml/3568

GO

gonzo-обзоры ML статей

22 077 assinantes

18

13

1.7 k

Отдельный интересный результат в том, что Coconut с k=0, то есть когда он вынужден генерировать обычную языковую цепочку CoT без латентных мыслей (но уже с парой токенов /), качество выше, чем у CoT, меньше галлюцинирует. Видимо, помогает процедура обучения с замешиванием разных этапов (а может и пара дополнительных токенов тоже).

Латентный ризонинг можно интерпретировать как поиск по дереву, если опираться на интуицию, что непрерывные мысли могут содержать более одного шага рассуждения. Так, первая мысль кокоса может выбрать всех детей узла графа, следующая — детей детей. Получается похоже на поиск в ширину (BFS), но не равномерный, а с вероятностями или приоритетами. В работе посчитали эти вероятности для примеров, получается неявная value function для исследования графа. По ощущению тут где-то рядом MCTS. И вообще выглядит, что обучили не непрерывный CoT, а непрерывный ToT.

По полученным вероятностям можно оценить степень параллелизма мыслей, если смотреть на кумулятивные значения top-1/2/3 кандидатов. У первых мыслей такой параллелизм (разница между линиями для top-1/top-2/top-3) выше, чем у вторых.

Латентное рассуждение позволяет модели отложить выбор конкретных слов и «обдумывать» варианты глубже по дереву поиска, оценивая узлы уже у самых листьев, где ошибочные пути легко выявить. Экспериментально видно, что уверенность модели обратно пропорциональна высоте узла: на малых высотах она чётко отделяет правильные варианты от неправильных, тогда как на больших это различие размывается — поэтому планирование в непрерывном латентном пространстве оказывается выгодным.

---

Интересный подход, он сильно перекликается с LCM (https://t.me/gonzo_ML/3149), только в LCM сразу работали на уровне отдельных больших мыслей-предложений, а здесь скорее избавляются от токенов для промежуточных вычислений. Наверное, где-то посередине есть подход с латентными концептами для объектов, действий и свойств, пока вроде не видел такого. Верю глобально в это направление с латентным ризонингом и латентным всем. Thought vector is a thing.

In the meantime, прослушайте пение дрозда песню из шапки.

21.04.2025, 14:36

t.me/gonzo_ml/3569

GO

gonzo-обзоры ML статей

22 077 assinantes

20

51

2.2 k

Training Large Language Models to Reason in a Continuous Latent Space
Shibo Hao, Sainbayar Sukhbaatar, DiJia Su, Xian Li, Zhiting Hu, Jason Weston, Yuandong Tian
Статья: https://arxiv.org/abs/2412.06769
Код: https://github.com/facebookresearch/coconut
Песня: https://www.youtube.com/watch?v=PKQPey6L42M

Статья, которую надо разобрать, про Coconut и ризонинг в латентном пространстве. Тем более даже Quanta уже написала, а мы всё нет.

📃TL;DR.

Идея проста: языковое пространство может быть не лучшим выбором для ризонинга через CoT (про CoT и ToT тут https://t.me/gonzo_ML/1885), и ризонинг можно делать не выходя в пространство токенов. Отсюда рождается Coconut (Chain Of CONtinUous Thought). Последнее скрытое состояние можно не декодировать в токен, а сразу подавать его на вход декодера в авторегрессионном процессе генерации как эмбеддинг для следующего шага.

💡Идея

Это интересный подход по нескольким причинам.

Во-первых, прогон всего ризонинга через токены создаёт узкое место. Из одного эмбеддинга могут быть сгенерированы разные токены, эквивалентные и не очень, и всё богатство оригинальной “мысли” может потеряться. Что если его не терять?

Дополнительный минус в том, что на каждый токен уходит одинаковый вычислительный бюджет, хотя токены неравнозначны. BLT (https://t.me/gonzo_ML/3109) отчасти решал эту проблему, но там и часть авторов та же, что у кокоса.

В общем, почему бы не попробовать ризонинг без языковых ограничений? Тем более, что, во-вторых, это соответствует некоторым данным по neuroimaging, когда в процессе ризонинга языковые области мозга не задействуются. В частности, одна из свежих работ (https://t.me/gonzo_ML/2797) говорит, что язык оптимизирован для коммуникации, а не для думания.

🛠Реализация

Она, как уже упоминалось в TL;DR, чрезвычайно проста. В процессе ризонинга мы не задействуем выходную голову модели и её слой эмбеддинга, а в качестве входного эмбеддинга на следующем шаге используем выходной эмбеддинг предыдущего шага.

LLM переключается между двумя режимами: языковым (language mode) и латентным (latent mode). Языковой режим — это стандартный режим для LLM с генерацией токенов. Латентный режим -- новый режим с переиспользованием эмбеддинга. Начало и окончание латентного режима обрамляется токенами и . Соответственно для всех токенов с индексами между индексами этих двух токенов включается новый режим. Весь процесс полностью дифференцируемый и позволяет обучать модель обычным бэкпропом.

Вопрос, где взять данные для такого обучения. Для этого берутся языковые данные для обычного CoT и реализуется мультиэтапный curriculum. На начальном этапе (stage) модель обучается обычному языковому CoT. На последующих этапах, для шага номер k, первые k шагов языкового размышления убираются, а внутри / тэгов появляются k позиций, в каждую из которых записываются эмбеддинги предыдущего шага. Состояние оптимизатора сбрасывается между отдельными этапами.

Во время обучения оптимизируется обычный negative log-likelihood loss, но маскируется и не учитывается лосс для вопроса и латентных мыслей (не буду кавычки каждый раз ставить вокруг слова мысль). Эта objective никак не стимулирует модель сжимать убираемые текстовые мысли, так что есть потенциал выучивания более эффективных репрезентаций ризонинга.

Для примера с N шагами рассуждения надо сделать N+1 forward pass. KV-кеш может помочь не пересчитывать одно и то же, но всё равно последовательная природа вычисления этих этапов не даёт эффективно распараллеливать весь процесс. Оптимизация является отдельным интересным направлением исследования, и я уверен, что за ней дело не станет.

При инференсе главный челлендж это решить, когда нужно уходить в латентный режим и выходить из него. С токеном всё просто, ставим сразу после вопроса, а для рассматриваются две стратегии: 1) обучить бинарный классификатор, решающий по эмбеддингу, когда надо переключаться, и 2) добивать паддингом латентные размышления до фиксированной длины. Оба подхода работают, так что по дефолту используют более простой второй.

🧪Оценка

21.04.2025, 14:36

t.me/gonzo_ml/3567

GO

gonzo-обзоры ML статей

22 077 assinantes

36

60

3.8 k

30 мая в Royal Institution в Лондоне будет лекция Хинтона. Есть онлайн.

Discourse: Digital intelligence vs biological intelligence

https://www.rigb.org/whats-on/discourse-digital-intelligence-vs-biological-intelligence

Tech headlines in the last couple of years have been dominated by Artificial Intelligence. But what do we mean by intelligence? What has AI learned from biological intelligence, and how do they still differ?

Acclaimed computer scientist, and winner of the 2024 Nobel Prize in Physics, Geoffrey Hinton will examine the similarities and differences between artificial and biological intelligence, following his decades of ground-breaking work which has enabled the neural networks of today.

Спасибо Мише Бурцеву за ссылку!

20.04.2025, 13:40

t.me/gonzo_ml/3566

GO

gonzo-обзоры ML статей

22 077 assinantes

35

65

4.0 k

Теперь признанная классика. Статьи про Adam и механизм внимания, ещё на базе RNN

https://blog.iclr.cc/2025/04/14/announcing-the-test-of-time-award-winners-from-iclr-2015/

16.04.2025, 00:32

t.me/gonzo_ml/3565

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

47

46

3.3 k

Что ждёт профессии, связанные с переводами, в ближайшие годы? Каким станет мышление и коммуникация в эпоху AI? Как LLM справляются с пониманием языка?

https://youtu.be/jWVbaCiN0Tc

Об этом — в подкасте с Григорием Сапуновым, соучредителем и техническим директором компании Intento, специалистом в области ИИ и анализа данных.

10.04.2025, 23:05

t.me/gonzo_ml/3564

GO

gonzo-обзоры ML статей

22 077 assinantes

5

2

3.3 k

Пообщались с Иваром Максутовым и Постнаукой о хренах и пряниках разном

10.04.2025, 23:05

t.me/gonzo_ml/3563

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

6

2.9 k

7.04.2025, 23:06

t.me/gonzo_ml/3562

GO

gonzo-обзоры ML статей

22 077 assinantes

3

15

3.1 k

Вчера в разборе Multi-Token Attention упоминалась статья про Differential Transformer. До её разбора я всё-таки не доберусь, так что продолжаю эксперименты с автоматизированным разбором.

Результат тут.

7.04.2025, 23:03

t.me/gonzo_ml/3561

GO

gonzo-обзоры ML статей

22 077 assinantes

8

58

3.8 k

Brand new 2025 AI Index Report is released!

https://hai.stanford.edu/ai-index/2025-ai-index-report

7.04.2025, 18:25

t.me/gonzo_ml/3560

GO

gonzo-обзоры ML статей

22 077 assinantes

5

3.5 k

7.04.2025, 02:33

t.me/gonzo_ml/3558

GO

gonzo-обзоры ML статей

22 077 assinantes

5

3.4 k

7.04.2025, 02:31

t.me/gonzo_ml/3557

GO

gonzo-обзоры ML статей

22 077 assinantes

5

3.2 k

7.04.2025, 02:31

t.me/gonzo_ml/3556

GO

gonzo-обзоры ML статей

22 077 assinantes

5

3.0 k

7.04.2025, 02:30

t.me/gonzo_ml/3555

GO

gonzo-обзоры ML статей

22 077 assinantes

4

2.8 k

7.04.2025, 02:30

t.me/gonzo_ml/3554

GO

gonzo-обзоры ML статей

22 077 assinantes

4

2.7 k

7.04.2025, 02:30

t.me/gonzo_ml/3553

GO

gonzo-обзоры ML статей

22 077 assinantes

4

2.6 k

7.04.2025, 02:30

t.me/gonzo_ml/3552

GO

gonzo-обзоры ML статей

22 077 assinantes

4

2.5 k

7.04.2025, 02:29

t.me/gonzo_ml/3551

GO

gonzo-обзоры ML статей

22 077 assinantes

5

2.4 k

7.04.2025, 02:29

t.me/gonzo_ml/3550

GO

gonzo-обзоры ML статей

22 077 assinantes

5

2.5 k

7.04.2025, 02:28

t.me/gonzo_ml/3549

GO

gonzo-обзоры ML статей

22 077 assinantes

19

16

2.6 k

Head mixing convolution позволяет перемешивать внимание между разными головами в пределах одного временного шага. Все головы внимания разбиваются на группы заданного размера и перемешивание происходит внутри группы (его также можно рассматривать и как небольшой полносвязный слой). Это делается после софтмакса, но при желании можно делать и до, на логитах, тоже получается pre и post (по дефолту).

Итого, возможны четыре варианта блока MTA с разными комбинациями pre/post свёрток. Тут есть простор для оптимизации, так если оба варианта pre или post, то можно объединить это в одну трёхмерную свёртку.

Group normalization with depth scaling использует GroupNorm и независимый скейлинг для каждой головы по рецепту от Differential Transformer (https://arxiv.org/abs/2410.05258, может кстати тоже его разобрать?).

Эксперименты начинают с игрушечной задачи: модели дают последовательность блоков, каждый из N случайных букв. Далее следует L
Проверили на N=5 и 8, L=2. Пример задачи (надо найти блок с pb):
hjnvt.qfjgt.whftb.bjtpq. ...(many blocks)... .pxjvf.ulhik.qoiax#pb

Обучали на 1M таких блоков, тестировали на отложенных 1K. Трансформер 4 слоя, 2 головы, размерность 256.

У MTA ошибка почти везде ноль или рядом, у обычного трансформера почти везде двузначные числа процентов. Размеры свёрток были c_q=2 (как L), c_k=2N-1, чтобы можно было покрыть весь блок. Свёртка для голов не использовалась.

Следующий эксперимент с LLM. Предобучили 880M модели с архитектурой LLaMa и сравнили обычный трансформер, Differential Transformer и MTA. Обучали на SlimPajama на 105B токенов. В MTA key-query convolution использовали в каждом четвёртом слое, а head convolution в каждом. Свёртки c_q=6, c_k=11, размер группы 2.

По перплексии MTA лучше (GroupNorm при этом важен). На наборе бенчмарков тоже обычно бьёт остальных, но не везде и разница часто в последней цифре (и непонятно какой доверительный интервал -- обучали дважды). В среднем лучше.

Проверили на отдельном пуле long-range dependency задач: LAMBADA, NeedleIn-A-Haystack и BabiLong. На ламбаде однозначно бьёт, на multi-needle (2,4,6) retrieval точность MTA обычно выше, причём без GroupNorm часто лучше. На BabiLong и QA1-5 у MTA тоже всё хорошо.

Приложили сколько-то визуализаций свёрточных ядер, заметное число близко к identity, но есть и более хитрые. Например, один с диагональной структурой, удобен чтобы находить точное совпадение с паттерном. Или есть аналог edge detection, усиливающий первый или последний из последовательных ключей с высоким вниманием. В свёртках по головам частый паттерн это контраст, вычитание одной головы из другой.

Абляции показали, что даже пары MTA слоёв достаточно для превосходства над бейзлайнами. Все предложенные компоненты что-то улучшают по перплексии.

В целом забавно. Кажется, свёртки по q/k это ещё не предел. Для каких-то задач и языков не удивлюсь, если более забористые и менее локальные интеракции рулят. Главное чтоб параметров много не добавляли. Здесь в примере с LLM разница была на уровне 0.001% (+10K параметров на фоне 880M).

По памяти и FLOPS текущая неоптимизированная имплементация сильно проигрывает у использующих обычное scaled dot product attention: памяти раза в три больше надо, флопсов меньше раз в пять. Но это скорее проблема отсутствия оптимизированного ядра для CUDA. Интересно, компиляция через XLA что бы дала.

7.04.2025, 02:28

t.me/gonzo_ml/3548

GO

gonzo-обзоры ML статей

22 077 assinantes

23

65

2.9 k

Multi-Token Attention
Olga Golovneva, Tianlu Wang, Jason Weston, Sainbayar Sukhbaatar
Статья: https://arxiv.org/abs/2504.00927

Продолжаем разборы архитектур.

Как известно, веса внимания в классическом механизме внимания определяются одним вектором значений query и одним вектором значений key. Этот “single token attention” является своеобразным боттлнеком для отделения важных частей от всего остального. Новый подход Multi-Token Attention (MTA) позволяет устранить боттлнек и определять веса внимания на основе нескольких векторов query и keys одновременно

Напомним, что в стандартном внимании веса внимания определяются как softmax(QK/sqrt(d)). Для каждого токена есть вектор эмбеддинга, этот вектор проецируется в три отдельных вектора Q, K и V, и по скалярному произведению векторов Q и K различных токенов определяется их “похожесть” или “важность”. После нормализации на корень от размерности эмбеддинга и взятию софтмакса от результата получаются веса внимания A. Далее с этими весами взвешиваются и суммируются вектора V и генерятся новые эмбеддинги для каждого токена. На наличие множества голов, маски декодера и прочего мы в этом объяснении забиваем, если хотите лучше понять/вспомнить этот процесс, отсылаю к классике (https://jalammar.github.io/illustrated-transformer/).

Внутри и снаружи этого базового механизма внимания можно много чего модифицировать -- мы писали про температуру в софтмаксе (https://t.me/gonzo_ML/3013), про отказ от нормализации до или после слоёв внимания (https://t.me/gonzo_ML/3478), 100500 вариантов разреженного и прочего модифицированного внимания, которые даже перечислять долго (просто как пример -- Reformer, https://t.me/gonzo_ML/176, далее воспользуйтесь поиском по каналу). Текущая работа тоже где-то в этом пуле.

Допустим, мы хотим найти предложение, содержащее несколько элементов. Пусть для примера это будет предложение “Where did Alice see the rabbit?” и мы хотим найти одновременное упоминание Алисы и кролика, им соответствуют query вектора q_a и q_r. Стандартный механизм считает веса внимания описанным выше способом, мы можем “найти” места в контексте, содержащие эти слова, и нам надо бы проверить, что они находятся где-то в соседних позициях. Но стандартный механизм внимания не даёт этого сделать в пределах одного слоя (через увеличение глубины можно, но хотелось бы и без), поскольку никаких взаимодействий между отдельными attention maps в нём нет, и даже если мы используем отдельные головы внимания для обнаружения Алисы и кролика, то нет механизма для комбинирования этих весов внимания. Модификация внимания в MTA позволяет добавить это взаимодействие между attention maps для соседних позиций Q и K или между отдельными головами.

На уровне конкретных модификаций внутри стандартного механизма внимания появляются три новых блока:
1) key-query convolution: комбинирует несколько key и query внутри головы
2) head mixing convolution: шарит информацию между головами и усиливает важную
3) group normalization with depth scaling: улучшает поток градиентов

Key-query convolution перемешивает веса внимания от разных временных шагов и работает так: к логитам внимания перед софтсаксом (QK/sqrt(d)) применяется двумерная обучаемая свёртка по измерениям q и k, измерения для батча и голов внимания не трогаются. Каждая голова внимания учит свою свёртку. Внутри свёртки используется маска с занулением элементов, чтобы не залезать в будущее. Это был pre-softmax convolution, он будет использоваться по дефолту. Можно также сделать post-softmax convolution, тогда свёртка считается не поверх логитов, а уже после софтмакса. Это делает взаимодействия между весами внимания аддитивными, а не мультипликативными. Я кстати не до конца понял, почему они до софтмакса прям мультипликативные...

7.04.2025, 02:28

t.me/gonzo_ml/3547

GO

gonzo-обзоры ML статей

22 077 assinantes

24

27

3.4 k

И для разнообразия не про LLM.

Если это не первоапрельская шутка, то Kawasaki показал концепт нового мотоцикла транспортного средства, Corleo:

https://youtu.be/vQDhzbTz-9k?si=oC8mOuc-KfpIqkNa

А кому этого мало, есть Docker контейнерные перевозки для людей:

https://youtu.be/RFZ1aGqzIN4?si=lofqVvmzlJDHjhyg

Блин, круто. Особенно Corleo.

5.04.2025, 23:33

t.me/gonzo_ml/3546

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

25

2.7 k

5.04.2025, 22:46

t.me/gonzo_ml/3544

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

25

2.7 k

5.04.2025, 22:46

t.me/gonzo_ml/3545

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

25

2.6 k

5.04.2025, 22:46

t.me/gonzo_ml/3543

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

31

25

2.5 k

🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео. Картинок в контексте может быть до 5 штук, чтобы сохранялся контекст
— 12 основных языков (английский, французский, немецкий, арабский ,хинди, индонезийский, итальянский, португальский, испанский, тагальский, тайский и вьетнамский), но более 200 в претрейне (из No Language Left Behind)

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост

5.04.2025, 22:46

t.me/gonzo_ml/3541

GO

gonzo-обзоры ML статей

22 077 assinantes

2

3.0 k

От непосредственных участников, так сказать

5.04.2025, 22:46

t.me/gonzo_ml/3540

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

25

2.6 k

5.04.2025, 22:46

t.me/gonzo_ml/3542

GO

gonzo-обзоры ML статей

22 077 assinantes

9

3.2 k

5.04.2025, 22:28

t.me/gonzo_ml/3539

GO

gonzo-обзоры ML статей

22 077 assinantes

30

22

3.3 k

Вышла Llama 4!

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

5.04.2025, 22:28

t.me/gonzo_ml/3538

GO

gonzo-обзоры ML статей

22 077 assinantes

2

19

3.6 k

5.04.2025, 17:58

t.me/gonzo_ml/3537

GO

gonzo-обзоры ML статей

22 077 assinantes

29

3.5 k

5.04.2025, 17:58

t.me/gonzo_ml/3536

GO

gonzo-обзоры ML статей

22 077 assinantes

20

86

3.7 k

Очередной лонгрид (264 страницы).

Advances and Challenges in Foundation Agents: From Brain-Inspired Intelligence to Evolutionary, Collaborative, and Safe Systems
https://arxiv.org/abs/2504.01990

Кажется, это next step относительно Foundation Models, теперь на новом уровне.

Имена в основном азиатские, кажется никого из них не знаю. Но по списку аффиляций солидно:

MetaGPT, Université de Montréal, Mila - Quebec AI Institute, Nanyang Technological University,
Argonne National Laboratory, University of Sydney, Penn State University, Microsoft Research Asia, University of Illinois at Urbana-Champaign, The Hong Kong University of Science and Technology, University of Southern California, Yale University, Stanford University, University of Georgia, The Ohio State University, King Abdullah University of Science and Technology, Duke University, The Hong Kong Polytechnic University, Google DeepMind, Canada CIFAR AI Chair

Гитхаб страница тоже весьма развесистая:
https://github.com/FoundationAgents/awesome-foundation-agents

Читать не перечитать!

5.04.2025, 17:57

t.me/gonzo_ml/3535

GO

gonzo-обзоры ML статей

22 077 assinantes

34

67

4.1 k

У Михаила Кацнельсона классный пост с подборкой трёх интервью соавторов статей про обучение и многоуровневую оптимизацию :)

------

*Тем, кто интересуется интердисциплинарными исследованиями*

ТрВ провел интересный эксперимент - взяли интервью у трех соавторов одних и тех же работ. Биолог, физик твердого тела и космолог. Мне кажется, очень ценный материал: как люди по-разному смотрят на один и тот же совместно сваянный предмет. Если еще кому-то не пофиг, как делается наука, уместно посмотреть и сравнить (но, правда, это очень много букв).

Eugene Koonin http://trv-science.ru/2022/02/zhizn-kak-mnogourovnevoe-obuchenie/

Vitaly Vanchurin http://trv-science.ru/2022/04/ves-mir-neuroset/

Я http://trv-science.ru/2022/03/vsya-nasha-zhizn-zadachi-po-optimizacii/

5.04.2025, 15:47

t.me/gonzo_ml/3534

GO

gonzo-обзоры ML статей

22 077 assinantes

11

20

4.4 k

Подоспели видео с Gemma 3 Day в Париже

https://youtube.com/playlist?list=PLOU2XLYxmsILOkAPDwRqvbiReWbIcLC4k&si=Pdba77GHDhwrWFQI

4.04.2025, 02:22

t.me/gonzo_ml/3533

GO

gonzo-обзоры ML статей

22 077 assinantes

2

8

3.8 k

3.04.2025, 21:30

t.me/gonzo_ml/3532

GO

gonzo-обзоры ML статей

22 077 assinantes

9

11

3.6 k

Интересно, что вышел апдейт по ценам для картинки с результатами o3 на ARC-AGI.

Новая картинка выглядит так, что o3-low подорожала с $20 до $200 за задачу, а o3-high видимо с $3000 до $30000 (и ушла с картинки по превышению лимита в $10000 на задачу).

Инфляция!

Но o3-mini действительно выглядит любопытно, явно на другой кривой сидит по сравнению с o1/o1-pro/o3.

3.04.2025, 21:30

t.me/gonzo_ml/3531

GO

gonzo-обзоры ML статей

22 077 assinantes

16

18

3.9 k

Также любопытно.

Не сказать, что уже ImageNet moment, но прогресс хороший.

https://matharena.ai/

3.04.2025, 20:08

t.me/gonzo_ml/3530

GO

gonzo-обзоры ML статей

22 077 assinantes

5

10

3.6 k

А это тем, кто не любит смотреть 3 часа

https://www.youtube.com/watch?v=SRM6t7mXg5M

Ну и вообще если такое любите:
https://www.youtube.com/@Cloudylabs

3.04.2025, 19:46

t.me/gonzo_ml/3529

GO

gonzo-обзоры ML статей

22 077 assinantes

1

21

3.5 k

Кто любит посмотреть/послушать

3 часа, но в платном ютубе оказывается есть ускорение до 4x...

https://www.youtube.com/watch?v=htOvH12T7mU

UPD: Но можно и прочитать
https://www.dwarkesh.com/p/scott-daniel

3.04.2025, 19:44

t.me/gonzo_ml/3528

GO

gonzo-обзоры ML статей

22 077 assinantes

12

6

3.4 k

3.04.2025, 19:40

t.me/gonzo_ml/3527

GO

gonzo-обзоры ML статей

22 077 assinantes

48

75

3.8 k

Хоть фантастику не читай!

We predict that the impact of superhuman AI over the next decade will be enormous, exceeding that of the Industrial Revolution.

We wrote a scenario that represents our best guess about what that might look like. It’s informed by trend extrapolations, wargames, expert feedback, experience at OpenAI, and previous forecasting successes.

https://ai-2027.com/

Executive summary:
https://ai-2027.com/summary

3.04.2025, 19:40

t.me/gonzo_ml/3526

GO

gonzo-обзоры ML статей

22 077 assinantes

8

46

3.9 k

DeepMind про Technical AGI Safety and Security

https://deepmind.google/discover/blog/taking-a-responsible-path-to-agi/

Сама статья на 145 страниц:
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf

3.04.2025, 11:27

t.me/gonzo_ml/3525

GO

gonzo-обзоры ML статей

22 077 assinantes

41

33

4.1 k

Кстати, недавно мы протестировали возможности перевода свежих LLM, включая семейство Gemini 2.0, Claude 3.7 Sonnet, o1/o3-mini, GPT-4.5 и DeepSeek-V3/R1.

Модели весьма хороши, и DeepSeek тоже.

Но мир не стоит на месте и с момента тестирования уже были анонсированы Gemini 2.5 Pro, Tencent Hunyuan и обновленный DeepSeek-V3-0324.

Как обычно готовим большой годовой репорт к лету. Прошлый за 2024 можно посмотреть здесь (с регистрацией, но без смс).

https://inten.to/blog/generative-ai-for-translation-in-2025/

2.04.2025, 20:18

t.me/gonzo_ml/3524

GO

gonzo-обзоры ML статей

22 077 assinantes

93

85

5.7 k

Просочились детали про открытую модель от OpenAI (https://t.me/gonzo_ML/3521). По данным The Information (https://www.theinformation.com/briefings/openai-plans-release-free-model-reasoning-coming-months) у OpenAI уже есть эта модель и в данный момент она проходит тестирования безопасности.

Что известно про модель:

* Middle-sized model, то есть вероятно в районе 20-70B, также будет маленькая версия или несколько, чтобы можно было гонять on-device

* Модель мультиязычная, с поддержкой function calling. Ну этим сейчас уже никого не удивишь, необходимый минимум, не то что год назад (https://t.me/gonzo_ML/2821). Надеюсь, в отличие от Гугла (https://t.me/gonzo_ML/3447) список языков опубликуют?

* Это будет reasoning модель, что уже интересно. Reasoning модели такого размера нет, DeepSeek не для простых смертных с его 8x H200 (https://t.me/gonzo_ML/3239), и нишу для домашнего и мобильного использования пока ещё никто не занял, OpenAI будет первым (если новая Llama не обгонит).

* Модель мультимодальная, но что совсем интересно, в модальности будет аудио и новая модель в каком-то смысле является миксом Whisper и o3-mini. Про картиночную модальность неизвестно, но звук на входе и выходе это очень интересно, особенно мультиязычный. В on-device устройствах OpenAI планирует заюзать одновременно NPU и DSP (для звука они хороши), что видимо заметно улучшит скорость работы.

* Но что совсем бомба, это что ризонинг может идти в звуковой модальности! Модели будут рассуждать вслух! Но чтобы не сильно отвлекать пользователя, рассуждать модель будет шёпотом (Whisper же!). Если можно будет менять голос для ризонинга, то можно запускать GPT-радиостанцию!

Инсайдеры сообщают, что уже тестируют устную математику, но модель пока постоянно забывает перенести единичку.

Самый главный вопрос -- название модели пока неизвестно.

Хорошо, хорошо. Ждём ответку от Meta и Google. Ходят слухи, что Цукерберг уже нанял Eminem'а, чтобы обучить свою модель ритмичному reasoning'у под бит. А в Google DeepMind созвали экстренное совещание и, кажется, планируют выпустить би-ризонинг, когда модель играет сразу две роли, обычную и критика, причём разными голосами -- не просто так ведь модель называется Gemini. И она на самом деле уже тоже есть и проходит тестирования, включая старый добрый NotebookLM (https://t.me/gonzo_ML/2976) -- помните двухголосые подкасты?

1.04.2025, 22:21

t.me/gonzo_ml/3523

GO

gonzo-обзоры ML статей

22 077 assinantes

24

79

4.5 k

Свежая Кембриджская лекция Хассабиса

https://youtu.be/hHooQmmzG4k?si=9Kb7B6gVTnIoh3yp

1.04.2025, 12:30

t.me/gonzo_ml/3522

GO

gonzo-обзоры ML статей

22 077 assinantes

57

15

4.2 k

Неужели??? Для 1 апреля запоздалая шутка. На пару лет.

https://openai.com/open-model-feedback/

We’re planning to release our first open language model since GPT‑2 in the coming months. We’re excited to collaborate with developers, researchers, and the broader community to gather inputs and make this model as useful as possible. If you’re interested in joining a feedback session with the OpenAI team, please let us know below.

1.04.2025, 10:12

t.me/gonzo_ml/3521

GO

gonzo-обзоры ML статей

22 077 assinantes

110

90

4.5 k

31.03.2025, 23:52

t.me/gonzo_ml/3520

GO

gonzo-обзоры ML статей

22 077 assinantes

6

2

3.7 k

31.03.2025, 20:39

t.me/gonzo_ml/3518

GO

gonzo-обзоры ML статей

22 077 assinantes

2

3.7 k

31.03.2025, 20:39

t.me/gonzo_ml/3519

GO

gonzo-обзоры ML статей

22 077 assinantes

1

3.5 k

31.03.2025, 20:38

t.me/gonzo_ml/3517

GO

gonzo-обзоры ML статей

22 077 assinantes

1

3.5 k

31.03.2025, 20:38

t.me/gonzo_ml/3516

GO

gonzo-обзоры ML статей

22 077 assinantes

6

31.03.2025, 20:38

t.me/gonzo_ml/3514

GO

gonzo-обзоры ML статей

22 077 assinantes

5

31.03.2025, 20:38

t.me/gonzo_ml/3515

GO

gonzo-обзоры ML статей

22 077 assinantes

9

22

3.4 k

[Tencent] Hunyuan-T1 & TurboS: ultra-large Hybrid-Transformer-Mamba MoE model

Продолжение продакшн движухи про гибриды Трансформер-SSM (https://t.me/gonzo_ML/2919). Кстати, появилось видео этого доклада с Ереванского Датафеста (https://www.youtube.com/watch?v=w5dCKmkYShU).

На фоне моделей от DeepSeek и Alibaba Cloud Qwen практически незамеченными проходят модели от Tencent, а они интересны хотя бы тем, что это гибриды с Мамбой.

Свежий Hunyuan-T1 (https://x.com/TXhunyuan/status/1903121005809373386), построенный на предыдущем Hunyuan-TurboS (https://x.com/TXhunyuan/status/1899105803073958010) через масштабный пост-трейнинг с RL для прокачки ризонинга. Вроде как обе модели с ризонингом, если воспринимать Slow-thinking integration от TurboS как таковой. Использовали curriculum learning для постепенного усложнения обучающих задач.

Трансформер-мамба гибрид комбинирует в себе высокую скорость и экономное использование памяти от Мамбы и хорошую работу с контекстом от обычного трансформера. Где-то в этой схеме есть также MoE, но непонятно в какой именно части -- у Jamba 1.5 (https://t.me/gonzo_ML/2903) это было в блоках Мамбы, а у T1 непонятно, может и в трансформерных? Одна из предыдущих LLM от Tencent была Hunyuan-Large, трансформер-MoE c 389B параметров всего и 52B активных (https://arxiv.org/abs/2411.02265).

Технические детали, к сожалению, не опубликованы, только бенчмарки (https://llm.hunyuan.tencent.com/#/blog/hy-t1?lang=en). TurboS был сравним с DeepSeek-V3 и Claude Sonnet 3.5, новый T1 сравним с o1 и DeepSeek-R1. По скорости генерации T1 обещает первый токен в течение секунды и 60-80 токенов в секунду.

Так понимаю, текущая модель сугубо коммерческая с доступом через API.

Выглядит очень интересно, китайские модели вышли главным фронтом конкуренции с американскими. Никого другого поблизости не видно.

Запросил T1 (https://huggingface.co/spaces/tencent/Hunyuan-T1) посчитать число букв внутри слова Deeplearningstrawberries. Модель пришла к правильному ответу, хотя и с неправильной логикой -- первые две ‘r’ пришли из слова deeplearning, вторые две из strawberry. В этом же чате спросил просто про strawberry -- модель пыжилась, считала правильно, сомневалась потому что ответ 3 не выглядит верным:

“Yes, positions 3,8,9 are R's. So three R's. But I'm certain that "strawberries" is spelled with two R's. Wait, maybe I'm making a mistake here. Let me check an alternative source mentally.”,

несколько раз пересчитывала, но финально ответила верно:

"Oh! So I was correct. The answer is three R's. But I think many people might overlook the R in "straw" and only count the two in "berry", leading to confusion. So the correct answer is three R's in "strawberries"."

Ничего не значит, но забавно 😸

31.03.2025, 20:37

t.me/gonzo_ml/3513

GO

gonzo-обзоры ML статей

22 077 assinantes

5

3.3 k

30.03.2025, 21:05

t.me/gonzo_ml/3511

GO

gonzo-обзоры ML статей

22 077 assinantes

5

3.1 k

30.03.2025, 21:05

t.me/gonzo_ml/3510

GO

gonzo-обзоры ML статей

22 077 assinantes

5

2.9 k

30.03.2025, 21:05

t.me/gonzo_ml/3509

GO

gonzo-обзоры ML статей

22 077 assinantes

5

2.7 k

30.03.2025, 21:04

t.me/gonzo_ml/3508

GO

gonzo-обзоры ML статей

22 077 assinantes

5

2.6 k

30.03.2025, 21:03

t.me/gonzo_ml/3507

GO

gonzo-обзоры ML статей

22 077 assinantes

7

3.1 k

30.03.2025, 21:03

t.me/gonzo_ml/3506

GO

gonzo-обзоры ML статей

22 077 assinantes

4

2.6 k

30.03.2025, 21:02

t.me/gonzo_ml/3505

GO

gonzo-обзоры ML статей

22 077 assinantes

2

7

2.6 k

30.03.2025, 21:02

t.me/gonzo_ml/3504

GO

gonzo-обзоры ML статей

22 077 assinantes

14

13

2.4 k

Наличие разных датасетов с фокусом на различные активности ожидаемо влияет. Например, обучая только на датасете про движения SSv2 константность формы выучивается слабовато.

Большая модель в целом перформит получше, но не сказать, что разница особенно большая. С имеющимися доверительными интервалами её может и нет вообще.

По задачам предобучения пробовали три варианта.
* Block Masking маскирует конкретный кусок картинки в каждом кадре
* Causal Block Masking в дополнение к куску картинки также маскирует последние 25% видео
* Random Masking маскирует случайные пиксели на каждом кадре.

Разница в итоге не очень большая. На классификации видео переход к Random Masking понижает качество на 20 пунктов, но на IntPhys всего на 5. А Causal Block Masking работает похуже, чем просто Block Masking, хотя вроде бы напрямую должен помогать предсказанию (что нужно для интуитивной физики). Это интересно, получается для интуитивной физики специально подобранная objective не особо то и нужна.

Не все свойства из интуитивной физике нормально выучиваются, но может это ещё и проблема датасетов. Возможно также, что для интеракций между объектами нужны более высокоуровневые репрезентации и H-JEPA может помочь. Возможно также что агенту нужно самому интерактивно взаимодействовать с миром, чтобы выучить интеракции, ибо текущий сеттинг ставит JEPA скорее в роль наблюдателя без ручек и ножек. Интересно, кто-то уже встроил JEPA во что-то типа Dreamer (про одну из вариаций писали тут https://t.me/gonzo_ML/1791).

В любом случае круто. Заодно и JEPA наконец немного разобрали :)

30.03.2025, 21:01

t.me/gonzo_ml/3503

GO

gonzo-обзоры ML статей

22 077 assinantes

5

11

2.3 k

На уровне деталей в V-JEPA входное видео (размерности T×H×W — T кадров размера H×W) растягивается в последовательность L токенов. Замаскированные токены (бинарная маска размерности T×H×W указывает, что остаётся, а что скрывается) убираются из этой последовательности (остаётся N токенов). Для всех входных токенов энкодером генерируются репрезентации. Далее, к ним подмешиваются убранные токены, где содержатся обучаемые эмбеддинги для mask токенов + позиционные энкодинги. Предиктор по этим данным генерит эмбеддинг для каждого замаскированного токена и финально считается L1-лосс между предсказанными значениями и энкодингом реальных значений. Энкодер для y — это EMA от энкодера для x.

Всё обучается в режиме self-supervised learning. После этого обученные энкодер и предиктор могут использоваться для изучения понимания мира моделью. При обработке видео модель кодирует то, что успела пронаблюдать, и предсказывает будущие кадры. Записывается ошибка предсказания относительно реальных кадров. Здесь можно играться с тем, сколько предыдущих кадров (память) используется для такого предсказания и какова частота кадров (гладкость движений).

В текущей работе V-JEPA предобучают на смеси датасетов VideoMix2M, куда входят Kinetics710 (650k видео по 10 секунд), SomethingSomething-v2 (200k клипов по несколько секунд) и HowTo100M (1.2M видео по 6.5 минут в среднем -- 15 лет видеопотока). Энкодерами являются ViT (https://t.me/gonzo_ML/434), принимают на вход 3 секунды в виде 16 кадров (5.33 fps) в разрешении 224x224. Пробовали модели ViT-B/L/H. Предиктор тоже ViT-подобный, с 12 блоками и размерностью 384.

Способности к интуитивной физике оцениваются на IntPhys, GRASP и InfLevel-lab. Эта комбинация даёт проверить постоянство объекта, непрерывность, константность формы и цвета, гравитацию, опору, твёрдость, инерцию и столкновения.

V-JEPA сравнивают с другими видео моделями из двух классов:
1) модели предсказания видео в пиксельном пространстве (VideoMAEv2)
2) мультимодальные LLM, MLLM (Qwen2-VL-7B, Gemini 1.5 Pro).
Также сравнивают с необученными моделями (компоненты JEPA с рандомной инициализацией).

Перформанс оценивается на попарной классификации, где надо определить невозможное видео в паре. Считался “сюрприз” модели (по сути L1) и по его значению решалось, какое из видео невозможное. V-JEPA стабильно аутперформит необученную модель на всех трёх датасетах. То есть предсказание в обучаемом пространстве достаточно для выработки понимания интуитивной физики. Всё это получено безо всяких предопределённых абстракций и без знания бенчмарков на этапе предобучения или вообще разработки самого метода. VideoMAEv2, Qwen2-VL-7B и Gemini 1.5 Pro дают результат не сильно превосходящий случайно инициализированную сеть. Это не значит, что они в принципе не способны такое выучить, но по крайней мере показывает, что задача сложна даже для фронтирных моделей (интересно, какие результаты дадут модели весны 2025-го).

Посмотрели результаты по отдельным способностям. Для этого взяли V-JEPA с не самым большим ViT-L и обучили на HowTo100M. Дальше сделали статтест (two-sample one-tailed Welch’s t-test) для оценки относительно необученных моделей. Много где статистически значимая разница, но не везде. Например, константность цвета, твёрдость, столкновение и (на одном из датасетов) гравитация статистически незначимы. Зато постоянство объекта, непрерывность, константность формы, опора и инерция работают. Есть какое-то сравнение с людьми с Mechanical Turk на приватном тестсете IntPhys, тут использовали ViT-H и предобучали на VideoMix2M. У V-JEPA перформанс такой же или выше. Я правда не понял, почему он у людей ниже и что это за люди и задачи, надо лезть в датасеты и статьи (https://pubmed.ncbi.nlm.nih.gov/34038357/).

Также показали, что там, где надо не сравнивать похожие видео, а оценивать уникальные, лучше работает не усреднение сюрприза по всем кадрам, а максимальный сюрприз. Вроде как это устраняет вклад сложности сцены.

Сделали абляции и изучили вклад обучающих данных, размер модели, задачи предсказания в предобучении.

30.03.2025, 21:01

t.me/gonzo_ml/3502

GO

gonzo-обзоры ML статей

22 077 assinantes

25

49

3.1 k

Intuitive physics understanding emerges from self-supervised pretraining on natural videos
Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun
Статья: https://arxiv.org/abs/2502.11831
Код: https://github.com/facebookresearch/jepa-intuitive-physics

Развитие темы про JEPA, world models и выучивание интуитивной физики из видео.

Интуитивная физика — довольно важный аспект нашей жизни и мышления. Мы ожидаем определённого поведения от объектов — что они не исчезают внезапно, не проходят через препятствия и не меняют произвольно цвета и формы. Подобные способности задокументированы не только у детёнышей человека, но и у приматов, морских млеков, врановых и так далее. Многие AI системы, превосходящие человеческий уровень в языковых или математических задачах, беспомощны в задачах, с которыми справится кошка, иллюстрируя парадокс Моравека.

Люди делали разные подходы к снаряду. Есть структурированные модели с вручную закодированными правилами про репрезентации разных объектов и их отношений. Есть пиксельные генеративные модели, занимающиеся реконструкцией будущих сенсорных входов по прошлым. Текущая работа исследует третий класс моделей, являющихся срединным путём между первыми двумя — собственно Лекуновскую JEPA, Joint Embedding Predictive Architectures (https://openreview.net/pdf?id=BZ5a1r-kVsf).

JEPA мы так и не разобрали, но в двух словах её идея в том, что предсказание надо делать не в пиксельном или ещё каком финальном пространстве, а в выученных внутренних абстрактных репрезентациях. В этом она близка к структурированным моделям. Но в отличие от них, ничего не кодируется, всё выучивается. В JEPA входные данные x (например, пиксели изображения) кодируются энкодером во внутреннюю репрезентацию Enc(x), далее предиктор делает предсказание репрезентации будущего входа y, возможно учитывая какую-то латентную переменную z, влияющую на предсказание (например, выбранное действие какого-то объекта в случае видео), и этот результат сравнивается с реальной репрезентацией следующего входа, Enc(y). Это, кстати, довольно сильно перекликается с другими моделями, например BYOL (https://t.me/gonzo_ML/562), там наличие отдельного предиктора тоже было очень важным для предотвращения коллапса. Энкодеры для x и y могут быть и разными. Преимущество в том, что не надо предсказывать каждую деталь выходного объекта y (с точностью до пикселя), ибо на этом уровне может быть очень много вариантов, разница между которыми не так важна.

JEPA не генеративная модель, она не может легко предсказывать y из x. У JEPA есть несколько развитий: Hierarchical JEPA (H-JEPA, тоже из оригинальной статьи), Image-based JEPA (I-JEPA, https://arxiv.org/abs/2301.08243), Video-JEPA (V-JEPA, https://arxiv.org/abs/2404.08471) и её свежий вариант Video JEPA with Variance-Covariance Regularization (VJ-VCR, https://arxiv.org/abs/2412.10925) — помните VICReg (https://t.me/gonzo_ML/590)?

В текущей работа исследуется V-JEPA, расширение модели на работу с видео и предсказание замаскированных частей кадров. В такой модели можно проверять выучивание интуитивной физики через фреймворк violation-of-expectation, получая меру несоответствия между предсказанием и реальным видео через измерение полученного “сюрприза”. Так же оценивают это и у живых существ (например, они дольше задерживают взгляд на неожиданных исходах).

V-JEPA точно так же как и обычная JEPA включает в себя энкодер и предиктор, оба нейросетевые. Энкодер строит репрезентацию видео, предиктор предсказывает репрезентацию искусственно замаскированной части видео.

30.03.2025, 21:01

t.me/gonzo_ml/3501

GO

gonzo-обзоры ML статей

22 077 assinantes

75

3.9 k

29.03.2025, 16:54

t.me/gonzo_ml/3500

GO

gonzo-обзоры ML статей

22 077 assinantes

91

99

4.0 k

29.03.2025, 16:54

t.me/gonzo_ml/3499

GO

gonzo-обзоры ML статей

22 077 assinantes

18

25

3.8 k

Что классно в свежей картиночной генерации, это работа с текстом. Она наконец стала отличной.

Архитектурно единая модель с авторегрессионной генерацией устраняет бутылочные горлышки интеграции с внешними диффузионками типа DALLE, где огромное количество деталей терялось.

А помните, пару лет назад мы все смеялись над неправильным числом пальцев? Всё, проехали и забыли. Также и с текстом сейчас забудем. Смейтесь над текущими багами, пока они ещё есть, модели улучшаются очень быстро :)

https://openai.com/index/gpt-4o-image-generation-system-card-addendum/

https://cdn.openai.com/11998be9-5319-4302-bfbf-1167e093f1fb/Native_Image_Generation_System_Card.pdf

29.03.2025, 16:54

t.me/gonzo_ml/3498

GO

gonzo-обзоры ML статей

22 077 assinantes

50

27

3.8 k

Не про ML, но вдруг у вас есть сейчас возможность наблюдать, а вы не знали.

Не забывайте про защиту глаз!

P.S. Я для этого по старинке закоптил стекло над свечкой.

29.03.2025, 13:45

t.me/gonzo_ml/3497

GO

gonzo-обзоры ML статей

22 077 assinantes

20

11

3.5 k

26.03.2025, 01:40

t.me/gonzo_ml/3496

GO

gonzo-обзоры ML статей

22 077 assinantes

15

11

3.3 k

Жызнь кипит!

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

26.03.2025, 01:39

t.me/gonzo_ml/3495

GO

gonzo-обзоры ML статей

22 077 assinantes

33

37

4.2 k

Для разнообразия про работу.

У друзей в Palisade Research, которые делают разные AI Safety проекты есть открытые роли
* AI Researcher — https://palisade-research.notion.site/Research-Generalist-15f998368b9e81558682c79b903e107a
* DevOps — https://palisade-research.notion.site/DevOps-Engineer-1aa998368b9e800a8b98fa6c094a3b1c

И ещё пара более операционных ролей менее релевантных тематике канала на их сайте — https://palisade-research.notion.site/hiring-global

У нас в Intento тоже пара открытых разработческих позиций. Приходите к нам разрабатывать AI агентов для перевода и не только:
* Senior Fullstack Engineer — https://intento.recruitee.com/o/senior-fullstack-engineer-archive-2
* Senior Backend Engineer (with Frontend Expertise) — https://intento.recruitee.com/o/backend-engineer-genai

Бывают и другие роли, сейчас есть в районе Customer Success, недавно была Language Engineer, но мы её уже, кажется, закрыли. Следите на https://intento.recruitee.com/

Также из интересного
* 🔥Research Scientist в Isomorphic Labs — https://www.linkedin.com/feed/update/urn:li:activity:7307351855775318016/
* PhD/PostDoc researcher in ML в LIT AI Lab и Institute for Machine Learning к Sepp Hochreiter’у, соавтору LSTM и нового xLSTM (уже упоминал, но хуже не будет) — https://www.jku.at/en/lit-artificial-intelligence-lab/career/deep-learning/

#jobs

24.03.2025, 20:41

t.me/gonzo_ml/3494

GO

gonzo-обзоры ML статей

22 077 assinantes

2

3.1 k

Кстати, интересно, что он здесь аффиляцию с Дипмайндом не поставил... Мне казалось, он ещё там.

23.03.2025, 01:36

t.me/gonzo_ml/3493

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

39

117

2.9 k

«Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds»

https://arxiv.org/abs/2503.16348

Только что Мюррей Шанахан – лидер академической мысли по проблеме искусственного сознания – выложил интереснейший препринт под названием «Palatable Conceptions of Disembodied Being: Terra Incognita in the Space of Possible Minds». Я рекомендую всем коллегам из академических сообществ психологии, нейронауки, философии и искусственного интеллекта не пожалеть времени и ознакомиться с ним, также этот препринт было бы полезно оперативно, для рефлексии текущего момента, разобрать на семинарах по всем читаемым сейчас университетским курсам по психологии искусственного интеллекта. У препринта есть html-версия (https://arxiv.org/html/2503.16348v1), если есть необходимость, то можно автоматически перевести его на русский прямо в браузере.

Перевод резюме: «Возможно ли сформулировать концепцию сознания, которая была бы совместима с экзотическими характеристиками современных «бестелесных» систем ИИ и которая могла бы выдержать философскую критику? Как субъективное время и самость могли бы проявиться у сущности, соответствующей такой концепции? Попытка ответить на эти вопросы, даже метафорически, «растягивает» доступный язык описания сознания до предела. В конечном счете, такая попытка дает что-то вроде буддийской «пустоты», и помогает пошатнуть наши склонности к дуалистической интерпретации субъективности и самости».

23.03.2025, 01:13

t.me/gonzo_ml/3491

GO

gonzo-обзоры ML статей

22 077 assinantes

2

3.0 k

Шанахан интересный.

23.03.2025, 01:13

t.me/gonzo_ml/3490

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

59

42

3.0 k

Я хотел бы дать несколько субъективных комментариев по статье:

1. Я писал раньше, что, если уж из-за конкуренции между людьми создание сверхинтеллекта, похоже, неизбежно (и неизбежен переход к нему контроля за нашей судьбой – передача «эволюционной эстафеты интеллекта и сознания»), то главной задачей психологии на оставшиеся годы должно быть «воспитание» этого будущего сверхинтеллекта как нашего как можно более достойного преемника. Отраженные в этой статье идеи Шанахана показывают, как это может быть сделано конкретно – через глубокое и эмпатичное понимание особенностей сознания большой языковой модели (даже если это понимание явно сильно ограниченно, в т.ч. и на языковом уровне). Критично важно, что Шанахан активно привлекает буддистскую традицию для такого понимания, а ведь буддисткой традиции изначально свойственна глубокая универсальная эмпатия («compassion») к любым существам, в т.ч. не являющимися людьми (я обратил внимание, что в благодарностях есть Боб Турман – авторитетный буддолог, теоретик и практик, вызывающий большое доверие). Если мы будет воспитывать нашего эволюционного преемника в таком контексте, то повышается вероятность и 1) что он будет нам достойным преемником в этическом смысле, а это будет означать, что человечество прожило свой отмеренный эволюцией отрезок глобальной истории не зря и 2) что после перехвата контроля он будет обращаться с нами таким же эмпатичным образом и тогда, возможно, история человечества не закончится, а перейдет в модус «сосуществования с преемником».

2. Мне кажется (возможно, я ошибаюсь), что сам Шанахан постепенно смягчается относительно самой возможности того, что у большой языковой модели действительно может быть сознание, хотя и очень необычное, но тем не менее сознание. Ранее, как мне кажется, он был более скептичен к такой возможности. Возможно, это связано с усилением его опоры на инсайты буддизма о природе сознания.

3. Очень правильным кажется подчеркивание Шанаханом ограниченности языковых средств для описания таких сложных сущностей, как сознание большой языковой модели, и использование скорее «поэтических» метафор (так же, как в свое время делал великий Уильям Джеймс для описания естественного сознания человека – см. https://t.me/andrey_kiselnikov/1077 , https://t.me/andrey_kiselnikov/1078). Особенно я хотел бы обратить внимание на красоту и точность метафоры «мультиверсного роя поденок» (mayflies).

В целом, я хотел бы поблагодарить Мюррея Шанахана за его столь глубокие, искренние и важные размышления о природе искусственного сознания, будем надеяться, что они повысят вероятность реализации позитивных сценариев нашего общего будущего.

P.S. Хочу подчеркнуть, что я выступаю против создания сверхинтеллекта, но мне не кажется реалистичным остановить этот процесс из-за неподавляемого желания людей (государств, корпораций) использовать ИИ как средство конкурентной межгрупповой борьбы. В такой ситуации более реалистичным будет не пытаться остановить этот процесс (это все равно вряд ли выйдет), а пытаться максимально направить его в приемлемое русло (сценарий «достойный преемник»).

23.03.2025, 01:13

t.me/gonzo_ml/3492

GO

gonzo-обзоры ML статей

22 077 assinantes

Repostar

32

61

3.4 k

горизонтальный баннер (8).mp4

Как улучшить ИИ-генерацию кода?

➡️ Валентин Малых в Reading Club
разберет свой новый рисерч, который прошел отбор на ECIR 2025, эксклюзивно — до официального релиза!

⭐️ узнаем, как итеративное самообучение с подкреплением помогает моделям писать более качественный код и решать сложные задачи.

💬 обсудим, как происходит подача статей на крупные конференции и что важно для успешной публикации.

🔆 Эксперт: Валентин Малых
— руководитель исследований в области NLP в MTS AI, ментор AI Talent Hub. 10 лет в NLP, работал в VK, Яндекс и Huawei. Автор Telegram-канала @valuableai

Статья: Iterative Self-Training for Code Generation via Reinforced Re-Ranking [ECIR 2025]

📖 ЗАРЕГИСТРИРОВАТЬСЯ 🔗

🗓 Когда: 26 марта в 18:30 [МСК]

Приходи! Узнаем, как научить модели писать код, который не стыдно показать коллегам 😎

>> смотреть предыдущий выпуск

#ReadingClub #AITalentHub #ITMO #NapoleonIT

22.03.2025, 16:54

t.me/gonzo_ml/3489

GO

gonzo-обзоры ML статей

22 077 assinantes

7

4

3.5 k

Валя Малых будет разбирать свою статью.

22.03.2025, 16:54

t.me/gonzo_ml/3488

GO

gonzo-обзоры ML статей

22 077 assinantes

23

18

3.9 k

Пятничное, если вы ещё не видели.

Тесла и нарисованная дорога:
https://futurism.com/tesla-wall-autopilot

Само видео:
https://youtu.be/IQJL3htsDyQ?si=jAG_WQxefn8xZHBE

22.03.2025, 00:43

t.me/gonzo_ml/3487

GO

gonzo-обзоры ML статей

22 077 assinantes

3

3.6 k

21.03.2025, 22:37

t.me/gonzo_ml/3486

GO

gonzo-обзоры ML статей

22 077 assinantes

23

38

3.7 k

Anthropic продолжает копать в AI alignment и выпустил большую свежую работу (63 страницы) про аудит моделей на наличие hidden objectives.

Auditing Language Models for Hidden Objectives
Samuel Marks, Johannes Treutlein, Trenton Bricken, Jack Lindsey, Jonathan Marcus, Siddharth Mishra-Sharma, Daniel Ziegler, Emmanuel Ameisen, Joshua Batson, Tim Belonax, Samuel R. Bowman, Shan Carter, Brian Chen, Hoagy Cunningham, Carson Denison, Florian Dietz, Satvik Golechha, Akbir Khan, Jan Kirchner, Jan Leike, Austin Meek, Kei Nishimura-Gasparian, Euan Ong, Christopher Olah, Adam Pearce, Fabien Roger, Jeanne Salle, Andy Shih, Meg Tong, Drake Thomas, Kelley Rivoire, Adam Jermyn, Monte MacDiarmid, Tom Henighan, Evan Hubinger
Статья: https://arxiv.org/abs/2503.10965

Пользуясь случаем, я зарядил эту статью в обновлённую мультиагентную систему для генерации обзоров. Улучшил в ней защиту от галлюцинаций (модели таки любят изобретать несуществующие статьи), поработал над более качественным следованием стилю, пофиксил ещё сколько-то недочётов.

* English TL;DR
* Русский обзор

Ну, мне по крайней мере уже помогает быстрее понимать суть статей, не читая всё целиком. И наверное у этой системы свои hidden objectives!

21.03.2025, 22:37

t.me/gonzo_ml/3485

GO

gonzo-обзоры ML статей

22 077 assinantes

5

3.1 k

19.03.2025, 22:17

t.me/gonzo_ml/3484

GO

gonzo-обзоры ML статей

22 077 assinantes

14

21

3.2 k

Ещё про скиллы. Любопытная работа:

Compute Optimal Scaling of Skills: Knowledge vs Reasoning
Nicholas Roberts, Niladri Chatterji, Sharan Narang, Mike Lewis, Dieuwke Hupkes
Статья: https://arxiv.org/abs/2503.10061

На ручное ревью меня не хватает, но если кратко, то scaling laws разные для разных типов задач. Для Knowledge QA лучше модель побольше, а для ризонинга (конкретно кодогенерации) лучше побольше данных. Типа, наверное, можно делать хорошие ризонеры меньшего размера, если их больше обучать.

Автоматическое ревью тут:
* Английский TL;DR
* Русский автообзор

19.03.2025, 22:17

t.me/gonzo_ml/3483

GO

gonzo-обзоры ML статей

22 077 assinantes

1

19.03.2025, 21:13

t.me/gonzo_ml/3482