Telegram channel page: LLM Arena • @llm_arena

LL

LLM Arena

444 subscribers

Repost

147

04/20/2025, 14:35

t.me/llm_arena/51

LL

LLM Arena

444 subscribers

Repost

147

LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings

04/20/2025, 14:35

t.me/llm_arena/53

LL

LLM Arena

444 subscribers

Repost

147

04/20/2025, 14:35

t.me/llm_arena/52

LL

LLM Arena

444 subscribers

374

04/15/2025, 14:03

t.me/llm_arena/48

LL

LLM Arena

444 subscribers

374

04/15/2025, 14:03

t.me/llm_arena/47

LL

LLM Arena

444 subscribers

374

🔥 Добавили новые модели ChatGPT на Арену

Кроме того, состав пополнили предыдущие версии, ранее недоступные.

Теперь на LLM Arena представлены:
⏺️ GPT 4.1
⏺️ GPT 4.1 Mini
⏺️ GPT 4.1 Nano
⏺️ o1-mini и
⏺️ о3-mini

Новые модели идут в трёх размерах — GPT 4.1, GPT 4.1 Mini и GPT 4.1 Nano. По сравнению с 4o, GPT 4.1 прокачали по всем фронтам — от кодинга до мультимодальности.

Но самое главное — 4.1 сильно лучше в следовании инструкций, модель теперь меньше забывает инструкции через одно сообщение и газлайтит пользователей.

Мы продолжаем добавлять новые модели на арену — вы можете затестить их уже сейчас:

1. Заходите на сайт llmarena.ru или в наш mini-app прямо в Telegra m.
2. Оценивайте модели, голосуйте за лучшие ответы.
3. Делитесь в чате инсайтами.

04/15/2025, 14:03

t.me/llm_arena/49

LL

LLM Arena

444 subscribers

374

04/15/2025, 14:03

t.me/llm_arena/46

LL

LLM Arena

444 subscribers

395

🔥 Бенчмарки стали неотъемлемой частью работы с LLM

Разобраться, как они устроены и какие метрики действительно имеют значение, можно будет вместе с нами 15 апреля на митапе Т-Банка.

Хедлайнерами программы выступит наша команда LLM Arena и авторы бенчмарка MERA — одного из наиболее используемых инструментов для оценки русскоязычных языковых моделей.

Будем разбирать:
- как устроены бенчмарки для текстовых и мультимодальных моделей;
- что учитывать при проверке LLM на качество написания кода;
- как сравнивать между собой специализированные ML-модели.

Встреча пройдёт в офлайн-формате в Москве, подробности по ссылке.

Регистрация уже открыта — приходите, будем рады видеть.

04/10/2025, 18:10

t.me/llm_arena/45

LL

LLM Arena

444 subscribers

251

🔥 Теперь рейтинг есть не только у моделей, но и у вас

Мы добавили авторизацию в боте через Telegram. Всё как раньше: задаёте вопросы, оцениваете ответы — только теперь ваш прогресс сохраняется.

За каждый отданный голос на Арене вам начисляются очки опыта. Чем активнее вы — тем выше ваш уровень.

Вместе с уровнем открываются новые возможности: доступ к наградам, статусам, расширенным функциям и рейтингу.

Чем больше активных, авторизованных пользователей — тем точнее система оценки и полезнее рейтинг моделей.

Для новичков мы добавили подробный онбординг: в боте есть гайд, подсказки и объяснения — чтобы быстрее понять механику платформы.

Всё это — благодаря вашей обратной связи. Читали, собирали, внедряли. Спасибо за идеи и замечания.

Тестируйте обновления в Telegram-боте и делитесь в комментариях мнением о новом функционале.

04/09/2025, 13:30

t.me/llm_arena/44

LL

LLM Arena

444 subscribers

432

Добавили Llama 4 Maverick и Llama 4 Scout на llmarena.ru

Вышли две новые модели с открытыми весами:
Llama 4 Scout и Llama 4 Maverick — обе мультимодальные, обе на MoE, обе 🔥

Что нового и крутого:
— 10М контекста у Scout — да, 10 миллионов токенов, и модель тянет это с качеством
— Мультимодальность из коробки: текст, картинки, видео, всё в одной архитектуре
— Llama 4 Scout — 17B активных параметров / 109B общих (16 экспертов), работает на одном H100
— Llama 4 Maverick — 17B активных / 400B общих (128 экспертов), уделывает GPT-4o и Gemini 2.0 Flash на бенчмарках
— В основе — Behemoth (ещё в обучении): 288B активных / 2T общих

Обе модели мощно посттренились:
— Сложные данные, онлайн RL, мягкий DPO
— Вычищены «лёгкие» примеры — упор на reasoning, код, математику
— Scout отлично держит длинный контекст (10М) + iRoPE архитектура
— Maverick — топ в мультимодальности и диалогах

Где трогать:
— Hugging Face
— Блогпост
— llmarena.ru

Модели доступны совершенно бесплатно как в публичной, так и в анонимной арене, го тестировать!

04/05/2025, 22:56

t.me/llm_arena/42

LL

LLM Arena

444 subscribers

634

🔥 Зарубежные ИИ на MERA — при поддержке LLM Arena

Пока все следили за обновлением Mistral Small, мы добавили зарубежные модели на лидерборд MERA — один из ведущих бенчмарков для оценки языковых моделей в России.

На платформе стали доступны:
⏺️ Claude 3.7 Sonnet
⏺️ Claude 3.5 Haiku
⏺️ Gemini Flash 2.0
⏺️ DeepSeek-V3
⏺️ Meta Llama 3.3
⏺️ Gemma 3 27B

Теперь вы можете наглядно увидеть, как Claude, Gemini, Llama и другие модели справляются с русскоязычными задачами в сравнении с отечественными LLM на одной площадке.

☝️ Кстати об этом: нам по-прежнему важны ваши оценки, ведь они напрямую влияют на рейтинг Арены. Не забывайте отдавать голоса — и в Telegram, и на сайте.

03/24/2025, 19:00

t.me/llm_arena/41

LL

LLM Arena

444 subscribers

542

🔥 В лидерборде появились 2 новые модели — DeepSeek R1 и YandexGPT 5 Pro

В этот раз прогрели быстро. А DeepSeek R1 даже успел стать моделью №1 на платформе. Если ещё не успели затестить этого монстра — добро пожаловать на Арену.

В разделе тестирования есть ещё Claude 3.7 Sonnet — голосуйте активнее, чтобы модель быстрее прогрелась и попала в таблицу рейтинга.

Тестируйте, сравнивайте, оценивайте на сайте llmarena.ru или в Telegram.

Каких моделей не хватает на Арене? Пишите в комментариях 👇

03/14/2025, 11:55

t.me/llm_arena/40

LL

LLM Arena

444 subscribers

1.1 k

03/04/2025, 18:02

t.me/llm_arena/38

LL

LLM Arena

444 subscribers

1.1 k

🔥 Hot News: Сегодня мы добавили на Арену сразу ДВА бенчмарка

Встречайте PingPong Benchmark и Simple-Evals-RU — новые инструменты для оценки языковых моделей.

➡️ PingPong Benchmark тестирует модели в ролевых диалогах. Здесь LLM-ки не только генерируют ответы, но и выступают в роли пользователей. Набор персонажей и ситуаций проверяет способность модели сохранять выбранную роль в многораундовой беседе.

Оценка идет по трем критериям:
- Соответствие персонажу — насколько точно модель играет свою роль.
- Развлекательность — насколько интересны её ответы.
- Языковая грамотность — естественность и корректность речи.

Результат — усредненный рейтинг по всем параметрам.

➡️ Simple-Evals-RU — это бенчмарк, который проверяет модели на математических, логических и программных задачах. Он включает тесты MGSM, MATH, HumanEval, MMLU-Pro и BBH, а также сравнивает стоимость работы моделей на миллион токенов.

Методология основана на simple-evals от OpenAI, поддерживает только Instruction-модели и использует Zero-shot и Chain-of-Thought промпты.

Оба бенчмарка уже доступны на платформе, найти их можно на сайте llmarena.ru ➡️ во вкладке «Таблица лидеров» ➡️ «PingPong» и «Simple-Evals».

Какие бенчмарки вам ещё интересны? Пишите в комментариях 👇

03/04/2025, 18:02

t.me/llm_arena/39

LL

LLM Arena

444 subscribers

379

02/27/2025, 18:35

t.me/llm_arena/33

LL

LLM Arena

444 subscribers

1.6 k

🤯 На Арене появилась YandexGPT Experimental Quattro

Ищем на сайте llmarena.ru или прямо здесь в Telegram и не забываем отдать свой голос — это важно для развития платформы.

UPD: модель оказалась YandexGPT 5 Pro

02/22/2025, 15:26

t.me/llm_arena/32

LL

LLM Arena

444 subscribers

449

🔥 Вы просили — мы сделали!

Спасибо всем, кто проголосовал в опросе. Один из интересных запросов, который мы обнаружили — добавить на платформу рейтинг «цена/качество» моделей.

Специально на вкладке Quality vs Price мы реализовали данный график. На графике указана зависимость рейтинга на llmarena.ru и стоимости модели, а также таблица с актуальными ценами и рейтингом ELO.

Таблица позволит вам понять, какие модели являются самыми эффективными, быстрыми и недорогими, а какие уступают конкурентам по цене и качеству.

Подписывайтесь на наш чат, голосуйте за лучшие ответы на сайте llmarena.ru или прямо здесь в Telegram!

Насколько данный график актуален для вас? Пишите в комментариях 👇

02/17/2025, 20:10

t.me/llm_arena/31

LL

LLM Arena

444 subscribers

260

👋 Всем привет! В прошлом месяце мы добавили на платформу SLAVA — бенчмарк, который тестирует языковые модели на фактическую точность в российском контексте.

В чём его особенность? Он затрагивает реальные, актуальные и даже спорные темы, которые часто остаются за рамками традиционных бенчмарков.

Со SLAVA модели не просто повторяют заученные фразы — им приходится ориентироваться в локальной специфике, разбираться в нюансах истории, экономики и культуры, формулируя осмысленный, точный и логичный ответ.

Найти бенчмарк можно на сайте llmarena.ru ➡️ во вкладке «Таблицы лидеров» ➡️ «SLAVA».

Проверить, какие модели справляются с задачами лучше, можно на сайте llmarena.ru или прямо здесь в Telegram.

Какие бенчмарки вам интересны? Пишите в комментариях 👇

02/14/2025, 12:01

t.me/llm_arena/30

LL

LLM Arena

444 subscribers

187

Всем привет 👋

Наша команда разработчиков ежедневно работает над улучшением платформы, и нам нужна ваша помощь. Хотим побольше узнать об опыте наших пользователей.

Соберём обратную связь, чтобы сделать Арену ещё полезнее для вас!

Заполните небольшую анкету, и, возможно, именно вы внесёте важный вклад в развитие проекта:

➡️ Заполнить анкету

Благодарим за активность. Следите за апдейтами и голосуйте за лучшие модели на нашей платформе!

02/12/2025, 17:38

t.me/llm_arena/29

LL

LLM Arena

444 subscribers

315

02/06/2025, 15:42

t.me/llm_arena/28

LL

LLM Arena

444 subscribers

262

02/03/2025, 13:01

t.me/llm_arena/25

LL

LLM Arena

444 subscribers

262

02/03/2025, 13:01

t.me/llm_arena/24

LL

LLM Arena

444 subscribers

262

02/03/2025, 13:01

t.me/llm_arena/26

LL

LLM Arena

444 subscribers

262

🏔 Рейтинг моделей на LLM Arena 2024: кто оказался на вершине?

2024 стал годом стремительного роста и конкуренции среди LLM-моделей. На нашей Арене мы не просто следили за этим, а создавали прозрачную систему оценки, объективно определяя лучших.

Сегодня представляем вам итоговый рейтинг, где учитывались тысячи голосов пользователей, статистическая значимость результатов и реальные способности моделей — он представлен на прикреплённых карточках.

А также хотим отдельно выделить лидеров в специальных номинациях:

✅ Лучшая корпоративная модель — ChatGPT-4o (OpenAI).
✅ Лучшая российская корпоративная модель — GigaChat Max (Sber).
✅ Лучшая open-source модель — Llama 3.1 405B Instruct Turbo (Meta AI*)
✅ Лучшая российская open-source модель — saiga_llama3_70b (Илья Гусев)

Наш рейтинг основан на живых тестах — пользователи сами оценивают модели при решении реальных задач.

Следите за обновлениями — мы продолжаем добавлять и тестировать новые модели на нашей платформе.

Все детали и полный рейтинг — на сайте llmarena.ru и прямо здесь в Telegram.

*Продукт Meta, компания признана экстремистской и запрещена в России.

02/03/2025, 13:01

t.me/llm_arena/27

LL

LLM Arena

444 subscribers

328

Всем привет 👋
Делимся списком языковых моделей, доступных для тестирования и сравнения на llmarena.ru уже сегодня — сейчас их 44:

- Llama 3.2 11B Instruct
- Qwen2.5 72B Instruct
- Cohere: Command R+ (08-2024)
- Google: Gemini Flash 1.5
- Google: Gemini Pro 1.5
- YandexGPT 4 Pro
- Vikhrmodels/Vikhr-Nemo-12B-Instruct-R-21-09-24
- RefalMachine/RuadaptQwen2.5-32B-Pro-Beta
- DeepSeek R1 (та самая гроза американских рынков)
- Cotype-Nano от MTS AI
- MiniMax-01 от Hailuo AI
- T-lite от Т-Банка
- T-pro от Т-Банка

Нам всё ещё нужны и важны ваши оценки со сложными вопросами и задачами. Будем рады вашему участию на платформе llmarena.ru или прямо здесь в Telegram!

01/28/2025, 17:03

t.me/llm_arena/23