O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
Idade do canal
Criado
Linguagem
Russo
0.8%
ER (semana)
3.65%
ERRAR (semana)

Канал команды NLP соre.

Здесь мы делимся нашими результами и мыслями в области NLP/PLP и не только. Мы авторы многих моделей для русского языка: ruBert, ruGPT2, ruGPT3, ruT5, ruRoberta, FRED-T5.

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 12 resultados
NL
NLP Core Team
2 946 assinantes
Repostar
34
29
616
RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub
21.04.2025, 16:06
t.me/nlpcoreteam/114
NL
NLP Core Team
2 946 assinantes
1
888
Интересная работа и вывод неожиданный.
21.04.2025, 16:06
t.me/nlpcoreteam/113
NL
NLP Core Team
2 946 assinantes
92
15
1.2 k
Награда нашла своих героев! 🎉

Юра Куратов и Айдар Булатов были сегодня награждены премией "научный прорыв года в ИИ" на конференции DataFusion. Распирает гордость за ребят!
C ребятами знакомы давно. Совместно делали различные эксперименты. Знаю не понаслышке, как много усилий ребята направляли на свои исследования. Ребята авторы многих работ, которые уже привычно цитирует google и другие (Recurrent Memory Transformer, Scaling Transformer to 1M tokens and beyond with RMT, BABILong и много других) Ребят вы крутые! Поздравляем! Ждем новых топовых работ!
16.04.2025, 14:52
t.me/nlpcoreteam/112
NL
NLP Core Team
2 946 assinantes
1
29
Награда нашла своих героев! 🎉

Юра Куратов и Айдар Булатов были сегодня награждены премией "научный прорыв года в ИИ" на конференции DataFusion. Распирает гордость за ребят!
C ребятами знакомы давно. Совместно делали различные эксперименты. Знаю не понаслышке, как много усилий ребята направляли на свои исследования. Ребята авторы многих работ, которые уже привычно цитирует google и другие (Recurrent Memory Transformer, Scaling Transformer to 1M tokens and beyond with RMT, BABILong и много других) Ребят вы крутые! Поздравляем! Ждем новых топовых работ!
16.04.2025, 14:51
t.me/nlpcoreteam/111
NL
NLP Core Team
2 946 assinantes
Repostar
18
585
4.04.2025, 13:07
t.me/nlpcoreteam/108
NL
NLP Core Team
2 946 assinantes
Repostar
18
587
4.04.2025, 13:07
t.me/nlpcoreteam/107
NL
NLP Core Team
2 946 assinantes
Repostar
18
591
4.04.2025, 13:07
t.me/nlpcoreteam/110
NL
NLP Core Team
2 946 assinantes
Repostar
18
590
4.04.2025, 13:07
t.me/nlpcoreteam/109
NL
NLP Core Team
2 946 assinantes
Repostar
12
18
565
✔️ ECLECTIC: взгляд Google на то, как LLM понимают разные языки

Исследователи из Google Research представили ECLeKTic — новый бенчмарк, предназначенный для оценки способности больших языковых моделей (LLM) переносить знания между языками.

Исследование направлено на выявление того, насколько эффективно модели могут применять информацию, полученную на одном языке, для решения задач на другом.​

Бенчмарк включает вопросы, сформулированные на одном языке, ответы на которые содержатся в соответствующих статьях Википедии. Эти вопросы затем переводятся на другие языки, для которых аналогичных статей нет. Таким образом, модели должны демонстрировать способность извлекать и применять знания, отсутствующие в целевом языке.​

Оценка моделей: Испытания восьми современных LLM показали, что даже передовые модели испытывают трудности с межъязыковым переносом знаний. Это подчеркивает необходимость дальнейших исследований и улучшений в этой области.​

Вместо простых вопросов используются тесты с множественным выбором, где неправильные ответы (дистракторы) специально сделаны очень похожими на правильный и правдоподобными. Чтобы выбрать верный вариант, модели нужно действительно понять нюансы на целевом языке, а не угадывать.

Минимизация "артефактов перевода": Вопросы тщательно создавались экспертами на 10 различных языках (включая арабский, хинди, японский, русский и др.). Они адаптированы культурно и лингвистически так, чтобы стратегия "перевести-решить-перевести обратно" работала плохо.

ECLECTIC – сложный тест: Он выявляет слабости в понимании, которые могут быть не видны на других бенчмарках.

🌟 Лучшие результаты у Gemini 2.5 Pro: до 52,6% общего успеха и 77,0% коэффициента удачного переноса знаний. ​
В отличие от OpenAI Google на своих же бенчмаркх занимают первые места 😂

Результаты показывают, что текущим LLM еще предстоит улучшить способность по-настоящему переносить и применять знания между языками.

🟡Подробнее
🟡Paper

@ai_machinelearning_big_data


#AI #ml #google #benchmark
4.04.2025, 13:07
t.me/nlpcoreteam/106
NL
NLP Core Team
2 946 assinantes
767
Интересная статья. Возможно вы видели этот пост, но тема показалась мне важная.
4.04.2025, 13:07
t.me/nlpcoreteam/105
NL
NLP Core Team
2 946 assinantes
25
14
1.7 k
Метрики прям сильные учитывая скорость генерации
27.02.2025, 09:49
t.me/nlpcoreteam/104
NL
NLP Core Team
2 946 assinantes
Repostar
24
28
855
🔺Mercury Coder. Диффузионная LLM для кода

Стартап Inception из Пало-Альто решил поставить на диффузионные LLM и начал выкатывать свои модели. Звучит интересно, потому что каких-то внятных рабочих моделей на диффузии пока не было. Здесь же авторы предлагают доступ по API и установку on-prem, то есть некое готовое изолированное решение, чтобы ваш код не утёк.

Первой моделью стал Mercury Coder — кодовая модель, основным преимуществом которой является скорость генерации, в 5-10 раз быстрее ChatGPT или Claude, около 1000 токенов в секунду на H100.

Вспоминается анекдот про секретаршу, но не все так плохо, на бенчмарках результат между gpt-4o-mini и DeepSeek Coder, а в fill-in-the-middle (генерация в промежутках кода) ожидаемо лучше остальных.

Есть публичное демо. Не забудьте включить переключатель Diffusion Effect.

👉 https://chat.inceptionlabs.ai/
27.02.2025, 09:46
t.me/nlpcoreteam/103
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa