The AI Scientist Generates its First Peer-Reviewed Scientific PublicationЯ
писал про пару работ Sakana.AI, но не писал про одну из самых интересных — про AI Scientist. Это система, которая проходит полный путь от генерации гипотез до написания полноценной научной статьи по Машинному Обучению, с картинками, отчётом по экспериментам итд. Концепция хоть и многообещающая, но первая версия была сыровата в плане результатов.
Вообще вопрос сгенерированных статей тогда всполошил людей, для которых написание статей и их принятие на конференции — это существенная часть работы. Критику концепции можно почитать, например, у Кали вот
тут (TLDR: оптимизировать нужно не проход на конференции, а реальный научный вклад; с этим трудно не согласиться, просто замерять сложнее, и меньше вписывается в обычную систему сравнений с понятным критерием).
Sakana.AI разработали вторую версию своего агента, про которого в ближайшем будущем выйдет статья. Но уже сегодня они поделились тем, что одна из трёх статей, сгенерированных агентом, прошла полноценное ревью на воркшоп одной из лучших ML-конференций в мире, ICLR (🤯).
Сам процесс генерации, как написал выше, полностью автоматизирован и не требует вовлечения человека — авторы лишь дали общие направления исследований, чтобы подпадать под критерии конференсии. Формирование научной гипотезы, формулирование критериев эксперимента, написание кода, его тестирование, запуск экспериментов, анализ результатов, визуализация, ну и конечно написание целой статьи (пусть и не очень большой, 8 страниц, включая сопроводительные материалы и цитирования), включая выбор заголовка и расположение визуализаций, чтобы форматирование не поехало — всё сделано системой.
Авторы лишь отобрали 3 статьи из какого-то количества в самом конце, но это исключительно по договорённости с организаторами и для того, чтобы не перегружать ревьюиров конференции — у тех и так жизнь не сахар. И вот одна из этих статей получала оценки 6, 7, 6 (6: слегка выше порога принятия статьи, 7: хорошая статья, принимается на воркшоп). Другие две взяли 3,7,3 и 3,3,3.
С такой оценкой статья обходит примерно 45% всех поданных на ревью воркшопа. Конечно, это не означает, что AI Scientist лучше 45% учёных — сам процесс оценки очень шумный, и некоторые очень клёвые статьи даже топовых учёных иногда отвергаются, а какой-то бред могут и принять. Но сам факт всё равно если не эпохальный, то значимый.
Также важно упомянуть, что это воркшоп при конференции, а не сама конференция: там мягче требования, процесс ревью менее въедливый, и как следствие выше процент принятия работ (а их уровень пониже). Обычно тут обкатывают идеи перед подачей на основную конференцию. На конференциях вроде ICLR, ICML, NeurIPS в воркшопы проходит примерно 60-70% всех отправленных работ, а на сами конференции около 20-30%.
Пока авторы не пишут, что за LLM использовали — это помогло бы понять, насколько легко в моменте просто подменив модель получить качество ещё лучше. Одно дело если это GPT-4.5 / Sonnet-3.7 (хотя обе модели ещё не были публично доступны в момент, когда проводилось уже ревью статей — то есть вся работа должна быть проделана), другое — если результат получилось выжать из какой-нибудь gpt-4o. Вполне может быть, что одна статья из 10, написанная условной рассуждающей GPT-5, может и на конференцию попасть.
Авторы заканчивают на вдохновляющей ноте:
Мы считаем, что следующие поколения AI Scientist откроют новую эру в науке. То, что ИИ может создать целую научную статью, которая пройдет рецензирование на первоклассном воркшопе по машинному обучению, является многообещающим ранним признаком прогресса. Это только начало. Мы ожидаем, что ИИ продолжит совершенствоваться, возможно, экспоненциально. В какой-то момент в будущем ИИ, вероятно, сможет создавать статьи на уровне человека и даже выше, в том числе достигая самого высокого уровня научных публикаций.
Все 3 статьи и рецензии можно почитать
тут — там же принимается обратная связь от научного сообщества об этической составляющей процесса.
P.S.: удивлён, что ровно то же самое не сделали Google или OpenAI 🤔