Telegram channel page: Гречневые мысли • @buckwheat_thoughts

815 subscribers

Repost

323

Бешенная популярность LLM явно раздражает Яна ЛеКуна, одного из отцов современного Data Science и главу подразделения фундаментальных исследований Meta* (запрещена в РФ). Он все чаще говорит, что языковые модели переоценены и не смогут заменить человеческий интеллект, как их не развивай. Рассказать, чем Лекун предлагает заменить LLM, @anti_agi попросили Никиту Сушко из научной группы «Прикладное NLP» Института AIRI:

Пользуясь классификацией из книги «Thinking Fast, Slow» Д.Канеманна, подразделяющей мышление на интуитивное и глубокое, Ян классифицирует нынешние LM как интуитивных мыслителей. Достичь сравнимого с человеческим сознания, пользуясь только этой парадигмой, очень сложно. Интуитивные мыслители — своего рода стохастические попугаи, которые услышали некоторую последовательность слов во время обучения, запомнили их порядок, и могут их повторить. При этом настоящие логические выводы им слабодоступны, ведь они не имеют понимания сгенерированного ими текста — только статистику. В то же время, алгоритмы с так называемой моделью мира (world model) внутри, имеют глубокое понимание происходящих процессов и, за счёт этого понимания, могут мыслить. Это и есть пример глубокого мышления, которое может стать тем самым искусственным интеллектом уровня человека.

Чтобы обучить ИИ «модели мира», ЛеКун предложил свою архитектуру — Joint Embedding Predictive Architecture (JEPA). Главная идея заключается в том, что вместо обучения предсказанию следующего токена (как в языковых моделях) или значения конкретных пикселей (как в картиночных моделях), модель обучается предсказанию так называемого эмбеддинга, то есть числового вектора, в котором закодировано описание какого-то абстрактного концепта. К примеру, модель I-JEPA учится предсказывать эмбеддинг части изображения по эмбеддингу некоторой другой части того же изображения. Это заставляет модель понимать суть картинок, а не просто их запоминать — и формирует ту самую модель мира, за счёт которой I-JEPA работает лучше сопоставимых по размеру трансформеров.

Другая важная часть обучения JEPA-моделей заключается в том, что оно в каком-то смысле похоже на обучение ребенка или животного — модели тоже учатся на основе наблюдений за миром, в self-supervised режиме. Это даёт возможность генерализоваться из малого числа данных лучше, чем у классических трансформеров.

Если читать чуть дальше заголовков новостных публикаций, то становится ясно, что Ян ЛеКун вовсе не отрицает полезность языковых моделей. LLM способны решать большое количество важных задач: нечеткий поиск, генерация, классификация и перенос стиля текстов. Он говорит лишь, что не стоит надеяться, что увеличение размера LLM-ок или датасетов для их обучения приведут к появлению у них реального интеллекта, ведь они обучаются предсказанию следующего токена и внутри них не существует тех самых «моделей мира». Они останутся в своей нише, а на их место в SOTA придут другие архитектуры.

Не стоит забывать также об исследованиях, показывающих наличие у LLM моделей мира в зачаточном состоянии. Так, еще в 2022 году вышла статья, где показывалось, что из активаций GPT-2, обученной на партиях похожей на шахматы настольной игры, можно было восстановить положения всех фигур на доске. Более того, если вмешаться в активации и изменить таким образом положение фигур, то и предсказание следующего хода тоже поменяется. При этом новый ход всё ещё будет сделан согласно правилам игры — то есть внутри трансформера не просто есть модель этого игрушечного мира, она еще и используется при принятии решений.

Конечно, реальный мир больше, чем шахматная доска, и построить его модель только по текстам из интернета значительно сложнее. Описанная же ЛеКуном архитектура предлагает способ улучшить качество построенных моделей мира. И это уже привело к результатам, как минимум в случае I-JEPA. Можно, конечно, спорить, какой из подходов лучше — скейлить трансформеры и надеяться на эмержентность или учить JEPA. Можно, но не нужно – лучше исследовать эти альтернативы их параллельно.

@anti_agi

04/17/2025, 12:15