LM Arena запустили новую арену для поиска -
Search Arena. Как и обычная арена, выбор моделей ослеплен, но в данном случае уже оцениваются поисковые возможности моделей, где есть функция поиска по интернету.
Прежде чем говорить про результаты лидерборда, кажется, нужно разобраться, как вообще работают все эти LLM поисковики. Там есть в general случае следующие этапы:
- Получая пользовательский поисковый запрос, LLM генерируют один или несколько новых запросов. А может и оставить изначальный в зависимости от кейса. Модель как раз и разбирается, как лучше сделать.
- Далее эти запросы отправляются в поисковый индекс и отбираются top-k кандидатов с запасом.
- Происходит merge кандидатов с дедупликацией, фильтрацией и применением каких-то "быстрых" правил, бизнес-логики и чисткой контента с выделением оттуда полезной нагрузки для дальнейшей части пайплайна.
- Rerank: эти k кандидатов реранжируются по какой-то формуле (может быть модель, может быть просто сортируются по релевантности самого индекса, а может просто эмбединги сверяются с изначальным запросом и т.д.) и из них вытаскиваются уже top-n наиболее релевантных.
- Последний этап, где уже эти top-n отдаются в LLM, и она на основе корпуса этих документов находит ответ на изначальный запрос, по сути делая банальную суммаризацию.
На Search Arena, как вы уже, наверное, догадались, происходит весь этот пайплайн end-2-end. То есть это соревнование не просто голых моделек, а всего пайплайна целиком.
И вот на лидерборде мы видим, что
лучший результат показывают:
- гугловая Gemini-2.5-Pro-Grounding, которая на всех бенчах выдает SOTA результаты (Grounding - это именно версия, которая может искать и приземлять ответы на реальные источники).
- Sonar Reasoning Pro High от Perplexity - файнтюненная на поисковых задачах самая большая модель от Perplexity с ризонингом.
Следом идут 4 позиции всех остальных версий Sonar.
Perplexity, насколько я знаю, юзают индекс Bing, который в среднем будет хуже гуглового, а сама Gemini вовсе SOTA модель, которая уделала всех почти во всех задачах. К тому же у Google явно лучше экспертиза на этапе реранкинга. То есть Perplexity, имея хуже индекс, потенциальное отставание в реранкинге и меньший ресурс, смогли сделать свою search модель, которая создает инкремент, который компенсирует это отставание и позволяет в итоге получить тот же результат. Это похвально.
Но надо понимать, что Search Arena только появилась, данных мало, и не факт, что лидерборд в духе Kaggle не перетрясет через месяц-два.