У вас закончился пробный период!
Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку
Возраст канала
Создан
Язык
Русский
0.8%
Вовлеченность по реакциям средняя за неделю
3.65%
Вовлеченность по просмотрам средняя за неделю

Канал команды NLP соre.

Здесь мы делимся нашими результами и мыслями в области NLP/PLP и не только. Мы авторы многих моделей для русского языка: ruBert, ruGPT2, ruGPT3, ruT5, ruRoberta, FRED-T5.

Сообщения Статистика
Репосты и цитирования
Сети публикаций
Сателлиты
Контакты
История
Топ категорий
Здесь будут отображены главные категории публикаций.
Топ упоминаний
Здесь будут отображены наиболее частые упоминания людей, организаций и мест.
Найдено 12 результатов
NL
NLP Core Team
2 946 подписчиков
Репост
34
29
616
RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub
21.04.2025, 16:06
t.me/nlpcoreteam/114
NL
NLP Core Team
2 946 подписчиков
1
888
Интересная работа и вывод неожиданный.
21.04.2025, 16:06
t.me/nlpcoreteam/113
NL
NLP Core Team
2 946 подписчиков
92
15
1.2 k
Награда нашла своих героев! 🎉

Юра Куратов и Айдар Булатов были сегодня награждены премией "научный прорыв года в ИИ" на конференции DataFusion. Распирает гордость за ребят!
C ребятами знакомы давно. Совместно делали различные эксперименты. Знаю не понаслышке, как много усилий ребята направляли на свои исследования. Ребята авторы многих работ, которые уже привычно цитирует google и другие (Recurrent Memory Transformer, Scaling Transformer to 1M tokens and beyond with RMT, BABILong и много других) Ребят вы крутые! Поздравляем! Ждем новых топовых работ!
16.04.2025, 14:52
t.me/nlpcoreteam/112
NL
NLP Core Team
2 946 подписчиков
1
29
Награда нашла своих героев! 🎉

Юра Куратов и Айдар Булатов были сегодня награждены премией "научный прорыв года в ИИ" на конференции DataFusion. Распирает гордость за ребят!
C ребятами знакомы давно. Совместно делали различные эксперименты. Знаю не понаслышке, как много усилий ребята направляли на свои исследования. Ребята авторы многих работ, которые уже привычно цитирует google и другие (Recurrent Memory Transformer, Scaling Transformer to 1M tokens and beyond with RMT, BABILong и много других) Ребят вы крутые! Поздравляем! Ждем новых топовых работ!
16.04.2025, 14:51
t.me/nlpcoreteam/111
NL
NLP Core Team
2 946 подписчиков
Репост
18
585
4.04.2025, 13:07
t.me/nlpcoreteam/108
NL
NLP Core Team
2 946 подписчиков
Репост
18
587
4.04.2025, 13:07
t.me/nlpcoreteam/107
NL
NLP Core Team
2 946 подписчиков
Репост
18
591
4.04.2025, 13:07
t.me/nlpcoreteam/110
NL
NLP Core Team
2 946 подписчиков
Репост
18
590
4.04.2025, 13:07
t.me/nlpcoreteam/109
NL
NLP Core Team
2 946 подписчиков
Репост
12
18
565
✔️ ECLECTIC: взгляд Google на то, как LLM понимают разные языки

Исследователи из Google Research представили ECLeKTic — новый бенчмарк, предназначенный для оценки способности больших языковых моделей (LLM) переносить знания между языками.

Исследование направлено на выявление того, насколько эффективно модели могут применять информацию, полученную на одном языке, для решения задач на другом.​

Бенчмарк включает вопросы, сформулированные на одном языке, ответы на которые содержатся в соответствующих статьях Википедии. Эти вопросы затем переводятся на другие языки, для которых аналогичных статей нет. Таким образом, модели должны демонстрировать способность извлекать и применять знания, отсутствующие в целевом языке.​

Оценка моделей: Испытания восьми современных LLM показали, что даже передовые модели испытывают трудности с межъязыковым переносом знаний. Это подчеркивает необходимость дальнейших исследований и улучшений в этой области.​

Вместо простых вопросов используются тесты с множественным выбором, где неправильные ответы (дистракторы) специально сделаны очень похожими на правильный и правдоподобными. Чтобы выбрать верный вариант, модели нужно действительно понять нюансы на целевом языке, а не угадывать.

Минимизация "артефактов перевода": Вопросы тщательно создавались экспертами на 10 различных языках (включая арабский, хинди, японский, русский и др.). Они адаптированы культурно и лингвистически так, чтобы стратегия "перевести-решить-перевести обратно" работала плохо.

ECLECTIC – сложный тест: Он выявляет слабости в понимании, которые могут быть не видны на других бенчмарках.

🌟 Лучшие результаты у Gemini 2.5 Pro: до 52,6% общего успеха и 77,0% коэффициента удачного переноса знаний. ​
В отличие от OpenAI Google на своих же бенчмаркх занимают первые места 😂

Результаты показывают, что текущим LLM еще предстоит улучшить способность по-настоящему переносить и применять знания между языками.

🟡Подробнее
🟡Paper

@ai_machinelearning_big_data


#AI #ml #google #benchmark
4.04.2025, 13:07
t.me/nlpcoreteam/106
NL
NLP Core Team
2 946 подписчиков
767
Интересная статья. Возможно вы видели этот пост, но тема показалась мне важная.
4.04.2025, 13:07
t.me/nlpcoreteam/105
NL
NLP Core Team
2 946 подписчиков
25
14
1.7 k
Метрики прям сильные учитывая скорость генерации
27.02.2025, 09:49
t.me/nlpcoreteam/104
NL
NLP Core Team
2 946 подписчиков
Репост
24
28
855
🔺Mercury Coder. Диффузионная LLM для кода

Стартап Inception из Пало-Альто решил поставить на диффузионные LLM и начал выкатывать свои модели. Звучит интересно, потому что каких-то внятных рабочих моделей на диффузии пока не было. Здесь же авторы предлагают доступ по API и установку on-prem, то есть некое готовое изолированное решение, чтобы ваш код не утёк.

Первой моделью стал Mercury Coder — кодовая модель, основным преимуществом которой является скорость генерации, в 5-10 раз быстрее ChatGPT или Claude, около 1000 токенов в секунду на H100.

Вспоминается анекдот про секретаршу, но не все так плохо, на бенчмарках результат между gpt-4o-mini и DeepSeek Coder, а в fill-in-the-middle (генерация в промежутках кода) ожидаемо лучше остальных.

Есть публичное демо. Не забудьте включить переключатель Diffusion Effect.

👉 https://chat.inceptionlabs.ai/
27.02.2025, 09:46
t.me/nlpcoreteam/103
Результаты поиска ограничены до 100 публикаций.
Некоторые возможности доступны только премиум пользователям.
Необходимо оплатить подписку, чтобы пользоваться этим функционалом.
Фильтр
Тип публикаций
Хронология похожих публикаций:
Сначала новые
Похожие публикации не найдены
Сообщения
Найти похожие аватары
Каналы 0
Высокий
Название
Подписчики
По вашему запросу ничего не подошло