ARC-AGI-2 [2025] В конце прошлого года OpenAI анонсировали модель O3, которая
при достаточно длительном размышлении решает первую часть ARC на высокий результат, близкий к человеческому, правда, на публичном эвале. Недавно авторы решили выпустить его вторую версию.
Как известно, Claude Boys и O1-pro Boys всей душой ненавидят ARC и при каждой возможности пытаются принизить его значимость. У этого есть вполне обоснованные причины:
1) Задачи этого бенчмарка не представлены в виде естественного языка. LLM Boys считают, что бенчмарк должен быть разработан так, чтобы было удобно решать тем моделям, которые им нравятся. Ну и, в отличие от опросников в формате ЕГЭ, ARC-вопросы не имеют практического смысла.
2) Если бенчмарк представляет принципиально новый челлендж, то в современных кругах это считается препятствием к техническому прогрессу. Чтобы развивать технологии, необходимо хвалить то, что уже есть, и не качать лодку.
3) Личность автора этого бенчмарка очень сильно беспокоит фанатов LLM. Он осмелился писать плохое про языковые модели в X (то, что это не AGI) и вообще мерзкий тип - и это автоматически делает его бенчмарк менее рукопожатным.
4) Самый страшный грех для авторов AI-бенчмарка в 2025 году - они понимают, как работает современная наука, и поэтому не выкладывают тестовые данные в открытый доступ, тем самым связывая руки почти всем современных учёным.
Так, а что, собственно, нового во второй части? Авторы почесали репу, разглядывая, как текущие подходы решают первую часть,
Первое, что они поняли - если задачу можно решить
DSL-перебором, значит, она слишком простая и не требует интеллекта в принципе. Это почти половина задач из оригинальной версии бенчмарка.
Кроме этого, авторы попытались понять, с чем возникают сложности у современных моделей. На первый план выведено 3 аспекта:
1) Symbolic Interpretation - способность "глубоко" интерпретировать значение объектов на поле, за рамками простого visual pattern.
2) Compositional Reasoning - способность применять одновременно несколько правил, взаимодействующих друг с другом
3) Contextual Rule Application - способность применять правила по-разному в зависимости от контекста
На основе этих знаний и была составлена вторая версия бенчмарка - ARC-AGI-2. Утверждается, что сложность для людей осталась примерно такой же - 60% (было 64%) прохождения в среднем, и ни одна задача не осталась совсем не решённой тестировщиками.
Вы можете поиграться с паблик эвалом
здесь (выбирайте Public Evaluation Set v2 (Hard)). Но не пугайтесь первой задачи - она аномально сложная по сравнению с другими. В среднем, подтверждаю, что сложность лишь слегка выше первой версии. Задачи стали больше по размеру и содержат больше элементов, но в большинстве случаев решение почти сразу становится понятным. При этом, оно часто не поддаётся простому объяснению, что и делает DSL-перебор крайне сложным.
По новой версии уже стартовало
новое Kaggle-соревнование, как когда-то
по старой. Но времена сильно изменились - в 2020 AGI считался стыдной темой и был лишь уделом мечтаний узкого круга лиц, тогда как сейчас это способ поднять бабок на инвестициях от лохов. Так что, взять золото в нём так просто,
как у меня в тот раз, уже не выйдет.
@knowledge_accumulator