Your trial period has ended!
For full access to functionality, please pay for a premium subscription
Channel age
Created
Language
Russian
-
ER (week)
-
ERR (week)

Кайфули на каждый день

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 178 results
RI
rizzearch
851 subscribers
1
13
266
Why do LLMs attend to the first token?

Федерико Барберо, с которым недавно вышел подкаст по одноименной статье о нестабильных репрезентациях в каузальных трансформерах, решил в этот раз получше в своей манере прочувствовать феномен аттеншн синков (кстати о них мы уже достаточно много писали - и тут и тут и тут)

а именно авторы задаются не вопросом про то, как можно использовать эти синки на практике, а почему они в принципе появляются на скейлах всех моделек - вследствие чего в процессе обучения появляется такой защитный механизм?

и если раньше интуитивно объясняли аттеншн синки как место, где скапливается “избыточная аттеншн энергия”, то здесь же Барберо говорит, что они решают 2 вида коллапса в трансформере

- representation collapse - эмбеддинги текущего и предыдущего токенов становятся все более неотличимы (особенно к концу последовательности)
- rank collapse: эмбеддинги токенов в последовательности становятся неотличимы от “среднего” эмбеддинга (становятся полностью гомогенными и неинформативными). терминология может намекать на ранги матриц, но это не связано

из ранк коллапс следует репрезентейшн коллапс, да и в принципе первый коллапс больше связан с длиной последовательности, в то время как второй говорит о размывании (или же так называемом over-mixing) информации с бОльшей глубиной модели

проверяли же они это с геммой 7б и лламами 3.1 (8б 70б 405б) по оценке синк метрики (которая по трешхолду замеряет насколько эмбеддинги активируются почти всегда), аттеншн мапам и нормам эмбеддингов

из интересного еще есть эксп, где они составляли пертурбацию в токенах (например поменяли best на greatest) в промпте. по теоретическим прикидкам авторов через Липшицеву константу, аттеншн синки помогают контролировать чувствительность модели к промпту, которая еще к тому же зависит от трейн длины контекста, глубины и количества голов → чем больше модель, тем более должно появляться якорей для стабилизации

также подтвердили зачем-то многие тейки из предшествующих статей (видимо чтобы потом и их цитировали побольше в том числе помимо первопроходцев) - например, что первому токену необязательно быть , а решает только позиция, и все равно появится синк, или как они могут помогать выставлять что-то вроде if-else утверждений в модели на проверку промпта (если в тексте есть апостроф, то соответствующая голова в соответствующем слое отреагирует, иначе же все уйдет в синк)

👀LINK
04/11/2025, 19:33
t.me/rizzearch/946
RI
rizzearch
851 subscribers
11
229
04/11/2025, 19:33
t.me/rizzearch/947
RI
rizzearch
851 subscribers
14
360
04/11/2025, 19:33
t.me/rizzearch/950
RI
rizzearch
851 subscribers
11
229
04/11/2025, 19:33
t.me/rizzearch/948
RI
rizzearch
851 subscribers
11
232
04/11/2025, 19:33
t.me/rizzearch/949
RI
rizzearch
851 subscribers
7
142
04/09/2025, 22:06
t.me/rizzearch/943
RI
rizzearch
851 subscribers
7
143
04/09/2025, 22:06
t.me/rizzearch/945
RI
rizzearch
851 subscribers
7
143
04/09/2025, 22:06
t.me/rizzearch/944
RI
rizzearch
851 subscribers
7
140
04/09/2025, 22:06
t.me/rizzearch/941
RI
rizzearch
851 subscribers
7
140
04/09/2025, 22:06
t.me/rizzearch/942
RI
rizzearch
851 subscribers
4
7
130
An Evolved Universal Transformer Memory

часто sakana.ai делает что-то интересное

недавно в transformer-squared они уже занимались махинациями с адаптацией на тест тайме, в этой же статье (которая хронологически вышла раньше) они явно размышляют над концепцией внешней памяти

и если сейчас, когда речь идет про память которая помогает адаптироваться на инференсе, в голове всплывает что-то типа недавних титанов или ТТТ. но тут авторы формулируют кв кэш (про который мы писали в последний раз здесь) как форму внешней памяти, которую можно оптимизировать, что интересно

короче говоря, статья не про мемори а про компрессию кв кэша

и реализуют они это через единую модельку всех слоев трансформера, которая выдает для каждого токена скор, оставлять ли токен в кеше или нет

- для этого они вычисляют спектрограмму (STFT) от аттеншн мап + делают EMA с гиперпараметром относительно оси времени (чтобы сжать ее). эта эвристика исходит не из какого-то profound факта, а просто потому что такая предобработка лучше всего у них заработала (по сравнению с сырым аттеншном и прочим) + еще добавляют поз эмбеды на основании “старости” каждого токена в кв кеше
- и затем эти фичи идут на вход модели, где работает Backward Attention Memory - аттеншн с не нижне-, а верхнетреугольной каузальной маской, таким образом эта внешняя легкая моделька настроена “в противоположном плане” фиттить свой аттеншн по сравнению с трансформером, что в совокупности должно давать прирост + есть резидуал коннекшны
- периодически эта модель выдает скоры, какие токены откидывать из кэша. сама же она обучалась при помощи эволюционного алгоса CMA-ES, который безградиентно обучает эту модель на селекцию токенов

на ЛонгБенче по сравнению с бейз лламой результат получше, а кэш сильно так пониже (для конкретных чисел можете посмотреть картинки) + из интересного еще применили это для ВЛМ на зеро-шот трансфер для ЛЛаВы и РЛ для десижн трансформера (который встроен в хф и последний раз мы его упоминали здесь)

и вроде бы получается круто, что правда (немного) улучшается результат, да и в этом присутствует интерпретация отсеивания ненужных токенов. но если сравнивать на языковых задачах, то есть много моментов которые бейзлайны не превосходят да и кв кэш не так сильно по памяти снижают + на иголке в сене перформанс деградирует, а к вижн и рл моментам так же остаются открытыми вопросы проведения экспериментов и тюна моделек

еще момент требования всей аттеншп мапы сильно ставит палки в колеса использованию флеш аттеншна

в принципе работа получилась интересной еще одним примером как грамотно можно эволюционные алгоритмы юзать для ллм и это не будет выглядеть сильно странно + унификация моментов внешней памяти и кв кэша тоже хороша

👀LINK
04/09/2025, 22:06
t.me/rizzearch/940
RI
rizzearch
851 subscribers
6
143
04/05/2025, 00:12
t.me/rizzearch/937
RI
rizzearch
851 subscribers
6
147
04/05/2025, 00:12
t.me/rizzearch/938
RI
rizzearch
851 subscribers
6
142
04/05/2025, 00:12
t.me/rizzearch/936
RI
rizzearch
851 subscribers
6
147
04/05/2025, 00:12
t.me/rizzearch/939
RI
rizzearch
851 subscribers
1
6
271
N-Gram Induction Heads for In-Context RL: Improving Stability and Reducing Data Needs

появление inductive bias следует в том числе считать за счет н-грамм паттерна в аттеншн мапах, потому авторы в прошлом году уже проворачивали явную вставку н грамм слоя в sequence модели для задачи языка

раз с ними ин-контекст способности появляются быстрее и “эффективнее” (что бы то ни значило) → может ли такое появиться в (ин-контекст) рл сетапе

ну и вот авторы заимплементили

- н грамм слой с внедрением н грамм матчинга из кода вышеупомянутой статьи (где вообще blyat ниче непонятно)
- который нативно работает в дискретном пространстве для игрушечных сред как даркрум и key-to-door. при том как матчинг на уровне state токенов, так и state-action-reward токене
- если же брать pixel-based среду (в данном случае MiniWorld), то здесь не обойтись без какой-либо дискретизации. здесь авторы реализовали в виде VQ квантизации, предобученной заранее (видимо на все том же мини ворлде)

тогда получается, что для сходимости нужно в ~30 раз меньше данных (вау! что довольно критично для ин-контекст рл) с учетом добавления двух гиперпараметров, которые несильно добавляют сложностей в переборе. в принципе вся сила экспериментального превосходства метода заключается в понятии expected maximum performance, который показывает ожидаемый максимальный перформанс при ограниченном вычислительном бюджете, нежели просто черри пик

теперь к непонятным моментам (много собственных предположений и спекуляций)

- критичным в мета-рл и частности ин-контекст рл является вопрос количества эпизодов, за которое сходится к оптимальному перформансу агент. есть графики только по поводу бейзлайна → можно спекулировать, что н-граммы в этом моменте не лучше
- нету непрерывного домена + экспериментальные среды являются довольно простыми в сравнении с остальными (на что авторы и сами указали). видимо не скейлится. но почему?
- может не так просто далось обучение резнета (который упоминается в статье), к кому самому возникает вопрос: почему он? там есть много моментов, в том числе и батчнорм, которые считаются out-of-fashion либо же оптимизированы под частные случаи
- либо же какой-то сбой дает сама векторная квантизация: происходит ли в используемости кодбука какие траблы в плане утилизации или разреженности


👀 link, где код лебовски
04/05/2025, 00:12
t.me/rizzearch/935
RI
rizzearch
851 subscribers
5
162
04/02/2025, 18:31
t.me/rizzearch/929
RI
rizzearch
851 subscribers
5
5
145
Llamba: Scaling Distilled Recurrent Models for Efficient Language Processing

Аттеншн - та же добыча радия.
В грамм добыча - в год труды.
Изводишь единого токена ради
Тысячи тонн словесной руды.

Маяковский (Поэзия - та же добыча радия)

мы уже упоминали как картезиа дистиллирует трансформеры в ссм, правда прошлая статья вызывала некоторые вопросы с точки зрения реализации

на этот раз получилось у них еще круче - в лламе 3.1 заменили аттеншн блоки на mamba блоки и получилась лламба (1б 3б и 8б параметров)

обучали в стиле MOHAWK по разным стадиям, где в knowledge distillation манере постепенно фиттили блоки все бОльшего размера: от выхода аттеншна (ссм) до конечных логитов модели

теперь только на замену аттеншну пришел дискретный блок мамбы 2, а дискретный он потому, что получает матрицу А напрямую из инпута, без махинаций с параметров дельта (который теоретически и дискретизирует стейт спейс модели для непрерывного потока времени), потому что задача здесь заключается в дистилляции аттеншна, который умеет оперировать только над дискретными объектами (токенами). короче подогнали

ну и здесь еще есть отличие от классической мамбы 2 в том, что оригинал является multi-value, а здесь же опять из-за подгона сделали multi-head + в оверолл архитектуре получается меньше мамба 2 блоков → больше батч сайз и меньше оверхеда на лаунч кернелов

по результатам даже у 8б модели потребовалось 12б токенов чтобы выдавать сравнимый результат на дефолтных бенчмарках (намного меньше (0.1%) чем у других гибридных или около того методов, из интересного есть еще наверное lolcats от Christopher Re, которые сворачивают софтмакс аттеншн в линейный через свд разложения)

еще через MLX погоняли модели на айфоне и макбуке что прикольно

судя по всему этот стартап в ближайшее время будет показывать много интересного своими on-device подходами

👀 link, code
04/02/2025, 18:31
t.me/rizzearch/928
RI
rizzearch
851 subscribers
5
162
04/02/2025, 18:31
t.me/rizzearch/931
RI
rizzearch
851 subscribers
5
170
04/02/2025, 18:31
t.me/rizzearch/934
RI
rizzearch
851 subscribers
5
161
04/02/2025, 18:31
t.me/rizzearch/932
RI
rizzearch
851 subscribers
5
162
04/02/2025, 18:31
t.me/rizzearch/933
RI
rizzearch
851 subscribers
5
162
04/02/2025, 18:31
t.me/rizzearch/930
RI
rizzearch
851 subscribers
7
150
03/28/2025, 19:15
t.me/rizzearch/925
RI
rizzearch
851 subscribers
7
149
03/28/2025, 19:15
t.me/rizzearch/926
RI
rizzearch
851 subscribers
1
12
228
Multi-Fidelity Policy Gradient Algorithms

если вы углублялись в концепцию полиси градиентов (ппо или рейнфорс например), то сталкивались с вопросом разброса такого обжектива, о чем уже достаточно давно говорят

еще критичнее это становится в относительно дорогих симуляторах (или же вообще непосредственно в реальном мире) с данными “высокого разрешения/точности”: из-за дисперсии надо дольше учиться, дольше гонять симулятор подороже, который еще и больше чувствителен к предиктивным ошибкам

но что если у нас есть возможность получать обедненные данные в бОльшем количестве (иначе смысла нет), так называемых low-fidelity environments, может ли это как-то помочь снизить нам разброс в градиент апдейтах?

и вот авторы смогли примерно что-то такое сделать из такого предположения. полиси обучаются при помощи high- & low-fidelity энвах, при том для обновления на более точных данных используется поправка с контрольной переменной, где вычитается скоррелированное слагаемое из основного приближения полиси градиента. и поскольку обедненная энва предполагает и того же агента, и примерно ту же динамику среды, то корреляцию можно считать выполненной (при том чем выше коррреляция тем сильнее эффект снижения дисперсии что интуитивно понятно)

обучали в такой манере рейнфорс и ппо - по результатам выглядит все довольно вкусно

- в 10 раз меньше можно использовать семплов из более крутой энвы по сравнению с бейзлайнами
- обучение становится стабильнее (просто потому что данных можно побольше нафигачить хоть и качества похуже)
- однако для скоррелированости нужно, чтобы у действий для обоих сред было одинаковое вероятностное пространство, то есть семплить действия в соответствии с одинаковым сидом (для непрерывных действий этому помогает reparametrization trick, для дискретных - Gumbel-max)

однако есть как раз-таки нюанс с вот этим low-fidelity энвами

- в качестве экспериментов обедненные среды делали просто упрощенными версиями таргет сред
- для картпола (который определяется диффуром второго порядка) - линеаризовали динамику
- для муджоко - инвертнули ревард, сохраняли 70%-90% гравитации изначальной среды

и по идее да, это более лайтовые энвы, но например в случае муджоко симуляция получается не прям дешевой-дешевой (из govna конфетку не получить). если же в качестве low-fidelity брать что-то совсем игрушечное, то корреляция между средами (спекулирую) сильно полетит и результаты могут получаться даже хуже бейзлайнов имхо (присказка для future work)

👀LINK
03/28/2025, 19:15
t.me/rizzearch/923
RI
rizzearch
851 subscribers
7
150
03/28/2025, 19:15
t.me/rizzearch/924
RI
rizzearch
851 subscribers
7
149
03/28/2025, 19:15
t.me/rizzearch/927
RI
rizzearch
851 subscribers
3
181
03/26/2025, 19:08
t.me/rizzearch/922
RI
rizzearch
851 subscribers
3
178
03/26/2025, 19:08
t.me/rizzearch/918
RI
rizzearch
851 subscribers
9
3
160
Cosmos World Foundation Model Platform for Physical AI

нвидиа в январе анонсировала Cosmos платформу для около фаундейшн-физикал-ворлд-модель суеты, сейчас у них дошли руки расписать, как они такое получили и что это в принципе из себя представляет

конкретно эта работа нацелена на фаундейшн ворлд модель (в последний раз мы писали про масштабные модели мира здесь), которая может генерить динамику реального мира тем или иным образом. получилось очень большое семейство авторегрессивных и диффузионных моделей

но на чем учить? хз, видимо другой опции как 10^8 + 10^7 клипов (для претрена и файнтюна соответственно) у авторов не было. а получили они их из 20 млн видосов разного качества (от 720р до 4к), сами же клипы получились долгим путем обработки

- scene segmentation
- фильтрация на движения, качество, отсутствие перекрывающего текста и тд
- аннотация при помощи VLM
- deduplication

по категориям - от вождения, человеческого движения и активности, nature dynamics до вида от первого лица, динамического движения камеры и тп. собрали все примерно сбалансированно

как в диффузии так и в decoder-only трансформерах для генерации видеокадров используют токенизаторы. ну и авторы в этом месте тоже выпускают свое семейство

- с дискретными токенами (на основе FSQ)
- и непрерывными (на основе ванильного автоэнкодера)
- при том везде в архитектурах есть вейвлет преобразование с темпоральными каузальными свертками и аттеншном

при том виды таких квантизаций, видимо, выбраны таким образом, чтобы не добавлять дополнительных слагаемых в финальный лосс при обучении моделей (ни кл терма например в случае VAE или коммитмент лосса в случае дефолтного VQ-VAE для непрерывного и дискретного случаев соответственно). а обучались эти токенизаторы на reconstruction loss + еще авторы добавили лоссы на optical flow & матрицу грама

для диффузии (помимо того что есть на картинках)

- непрерывные токены (хотя дискретные присутствуют и при обучении)
- не флоу матчинг, а диффьюжн скор (как из EDM) для DiT
- prompt upsampler
- mixed precision
- fsdp + context parallelism

декодер-онли трансформеры

- обучаемый softmax scaling factor
- z-loss как дополнительный терм чтобы логиты по магнитудам были не слишком большими
- tensor parallelism + sequence parallelism
- medusa на инференсе как вид спекулятивного декодинга

We train all of the WFM models reported in the paper using a cluster of 10,000 NVIDIA H100 GPUs in a time span of three months.

так же авторы еще пробовали файнтюнить

- под камера контрол, где надо генерить сцены в соответствии с дополнительным инпутом о положении камеры
- на роботику (кондишн на совершение действий)
- беспилотное вождение, где создают траекторию движения с 6 разными ракурсами (как будто камеры наклеены на настоящую тачку)

помимо метрик типа ошибки сэмпсона, LPIPS или 3д консистенси авторы еще решили прочекать как хорошо модели понимают физику (потому что вся вот эта космическая суета в принципе под эгидой Physical AI развивается) в сравнении и isaac sim в плане падения и движения предметов

пока авторы отмечают, что все так же присутствует проблема с физикой жидкости, гравитацией и светом в более широких сценариях (тут лучше ответить смогут кто непосредственно работает с видеогенерацией)

так же второй из трех подпроектов космоса основывается на этих моделях - Cosmos-Transfer1, где происходит sim2real генерация из разных модальностей (сегментация, карта глубины и edge maps) в видео реальности

👀 link, code
03/26/2025, 19:08
t.me/rizzearch/913
RI
rizzearch
851 subscribers
3
180
03/26/2025, 19:08
t.me/rizzearch/921
RI
rizzearch
851 subscribers
3
177
03/26/2025, 19:08
t.me/rizzearch/914
RI
rizzearch
851 subscribers
3
179
03/26/2025, 19:08
t.me/rizzearch/919
RI
rizzearch
851 subscribers
3
177
03/26/2025, 19:08
t.me/rizzearch/916
RI
rizzearch
851 subscribers
3
177
03/26/2025, 19:08
t.me/rizzearch/917
RI
rizzearch
851 subscribers
3
177
03/26/2025, 19:08
t.me/rizzearch/915
RI
rizzearch
851 subscribers
3
182
03/26/2025, 19:08
t.me/rizzearch/920
RI
rizzearch
851 subscribers
Repost
7
21
182
Вышла вторая версия овервьюшки по RL (современному), теперь 177 страничек (было 144)

Reinforcement Learning: A Comprehensive Overview
https://arxiv.org/abs/2412.05265v2
03/25/2025, 21:00
t.me/rizzearch/912
RI
rizzearch
851 subscribers
8
265
03/24/2025, 22:19
t.me/rizzearch/905
RI
rizzearch
851 subscribers
8
265
03/24/2025, 22:19
t.me/rizzearch/909
RI
rizzearch
851 subscribers
8
266
03/24/2025, 22:19
t.me/rizzearch/910
RI
rizzearch
851 subscribers
9
8
245
Isaac GR00T N1: An Open Foundation Model for Humanoid Robots

вслед за физикал интеллиженс нвидиа тоже сделали свою фаундейшн робо модель, при том для человекоподобных роботов

у них здесь аналогично есть иерархичное разделение на систему 1 и систему 2 для того, что они называют ризонингом (ибо на хайпе), и совершением действия на 120 Гц. кстати как и у pi0 by pi.website, в качестве головы для действий выступает флоу матчинг голова (где таймстепы точно так же семплируются из бета распределения, интересно проводили ли какие-то махинации ли они с токенизацией)

моделька называется грут 2.2B (а сколько пи0 составляет неизвестно UPD: известно, спасибо комментаторам, примерно столько же), у которого VLM бэкбон это Eagle2) опять-таки от нвидиа. при этом есть и такие занимательные моменты

- на инференсе они делают 4 шага флоу матчинга (вместо 10 как у беркли/физикал интеллиженс)
- система 2 (VLM) принимает на вход картинки разрешения 224х224, что уже многолетняя классика, качества которой достаточно для робо задач
- эмбеддинги VLM они берут не последние, а из середины модели (12-ый слой, про такую технику мы уже говорили), может намекать о том, что языковые инструкции для роботов не так уж сложны для обработки (либо еще что-то непонятное что требует больше ресерча)
- еще так же во время обучения авторы добавили доп лосс на детекцию objects of interest, который реализован просто через отдельную голову для 2д координат (сделано для model spatial understanding)

по компьюту же авторы использовали вплоть до 1024 карточек (необязательно для обучения, но и для сбора данных). грут 2б же скушал примерно 50к гпу часов на h100 на претрейне, потом еще файнтюнили на А6000

в качестве данных же брали очень много разношерстных датасетов (для генерализации оф корс) + для этого стандартизовали пространство действий

но это где есть разметка. чтобы еще увеличить скейл датасета, авторы взяли демонстрационные видосы от людей, откуда дополнительно вычленяли латентные действия (при помощи модели обратной динамики, мы о них уже писали)

но и этого мало! от этих видосов также нагенерили много синтетики, которые повышают диверсити траекторий действий. при том нагенерили в сценарии имг2видео, для чего использовали WAN 14B, а уже для составления робо траекторий выступала модель DexMimicGen (тоже от нвидиа)

We generate a total of around 827 hours of videos; it takes 2 minutes to generate a one-second video on an L40 GPU, and required approximately 105k L40 GPU hours (∼1.5 days) on 3,600 L40 GPUs.

короче говоря, вышло очень дорого на всех этапах, а демки залипательные

👀 link, code
03/24/2025, 22:19
t.me/rizzearch/904
RI
rizzearch
851 subscribers
8
266
03/24/2025, 22:19
t.me/rizzearch/911
RI
rizzearch
851 subscribers
8
266
03/24/2025, 22:19
t.me/rizzearch/908
RI
rizzearch
851 subscribers
8
266
03/24/2025, 22:19
t.me/rizzearch/906
RI
rizzearch
851 subscribers
8
266
03/24/2025, 22:19
t.me/rizzearch/907
RI
rizzearch
851 subscribers
1
03/24/2025, 22:13
t.me/rizzearch/902
RI
rizzearch
851 subscribers
1
03/24/2025, 22:13
t.me/rizzearch/901
RI
rizzearch
851 subscribers
1
03/24/2025, 22:13
t.me/rizzearch/900
RI
rizzearch
851 subscribers
1
03/24/2025, 22:13
t.me/rizzearch/903
RI
rizzearch
851 subscribers
9
225
03/21/2025, 20:13
t.me/rizzearch/897
RI
rizzearch
851 subscribers
9
229
03/21/2025, 20:13
t.me/rizzearch/898
RI
rizzearch
851 subscribers
9
223
03/21/2025, 20:13
t.me/rizzearch/893
RI
rizzearch
851 subscribers
9
229
03/21/2025, 20:13
t.me/rizzearch/896
RI
rizzearch
851 subscribers
9
229
03/21/2025, 20:13
t.me/rizzearch/894
RI
rizzearch
851 subscribers
7
9
202
Forgetting Transformer: Softmax Attention with a Forget Gate

авторы из Милы и дипмаинда сделали очень естественную концепцию форгет гейта для софтмакс аттеншна

а естественность эта заключается в том, что

- если вспомнить линейный аттеншн, то его преимущество на инференсе (теоретически) заключается в возможности записать его в рекуррентном виде
- где уже дальше можно внести момент data-dependent форгет гейта (взятый по аналогии с LSTM или xLSTM если поновее (кстати его смогли отскейлить до 7б), только там экспоненциальное забывание)
- однако, это самое забывание можно внести и в привычную формулу параллельного линейного аттеншна (что в принципе похоже на GLA & обобщение ссм и аттеншна мамбы 2)
- но тогда там в формуле появляется уравнение forget_matrix * sim(q, k), которую снова можно развернуть в forget_matrix * softmax(q @ k)

и из этого мы возвращаемся к стандартному софтмаксу с перформансом лучше → так еще и можно засунуть элемент забывания под софтмакс, получится что-то типа

softmax(q @ k + log[forget_matrix])

где уже есть аналогии как и с навороченной каузальной маской, так и с позиционным кодированием (именно поэтому в своей архитектуре они вырубают роуп, хотя можно включить и чуть-чуть результат будет получше) где похожее было и в алиби и в ретнете например, только маски там были в data-independent манере

так еще и реализовано во флеш-аттн лайк манере, где эта матрица не высчитывается сразу, а постепенно, храня в HBM промежуточные результаты forget gate’ов для каждого таймстепа,и попарно высчитывается далее уже в онлайн стиле (в статье очень хорошо и понятно описано, рекомендуем)

сделали все на основе флаг аттеншн - оч крутая репа, да и сам код от FoX (Forgetting Transformer) не отстает

по состоятельности экспериментов можно сказать то, что реально присутствует улучшение в языковом моделировании, зеро-шот, в длинный контекст и все такое, однако скейл моделей был примерно в районе 125М-350М-760М, ну и скейл датасета соответствующий

👀LINK
03/21/2025, 20:13
t.me/rizzearch/892
RI
rizzearch
851 subscribers
9
228
03/21/2025, 20:13
t.me/rizzearch/895
RI
rizzearch
851 subscribers
9
226
03/21/2025, 20:13
t.me/rizzearch/899
RI
rizzearch
851 subscribers
4
171
03/17/2025, 20:10
t.me/rizzearch/888
RI
rizzearch
851 subscribers
4
171
03/17/2025, 20:10
t.me/rizzearch/886
RI
rizzearch
851 subscribers
4
172
03/17/2025, 20:10
t.me/rizzearch/887
RI
rizzearch
851 subscribers
4
173
03/17/2025, 20:10
t.me/rizzearch/889
RI
rizzearch
851 subscribers
4
175
03/17/2025, 20:10
t.me/rizzearch/890
RI
rizzearch
851 subscribers
4
176
03/17/2025, 20:10
t.me/rizzearch/891
RI
rizzearch
851 subscribers
4
173
03/17/2025, 20:10
t.me/rizzearch/885
RI
rizzearch
851 subscribers
4
171
03/17/2025, 20:10
t.me/rizzearch/884
RI
rizzearch
851 subscribers
4
147
BEHAVIOR Robot Suite: Streamlining Real-World Whole-Body Manipulation for Everyday Household Activities

тут стенфордцы на основе (почти) своего же бенчмарка BEHAVIOR-1K сделали свой фреймворк для полноценного робота на колесиках для выполнения заданий по дому

точнее из своего бенчмарка они смогли вычленить то, что для таких полноценных роботов возникает много проблем с выполнением

- бимануальной координации (использовать одновременно 2 руки для совершения действий)
- стабильно точной навигации (разбираться где робот находится относительно общей обстановки в доме и понимать, где какая вещь может лежать)
- конечного результата (то есть пытаться до конца выполнить четкое сформулированное задание)

и для этого получилось довольно классное решение, которое объединяет в себе и хардовые, и софт идеи

сам робот состоит из трех частей - фундамент с колесиками, торс и руки. для его управления и сбора данных кстати адаптировали контроллер от нинтендо что прикольно, а с руками по сетапу (назвали JoyLo) вышло меньше 500 долларов, чтобы руки если что можно было поменять дешево (которые видимо по заверениям авторов могут быстрее изнашиваться или подвергаться урону, чем менее подвижные торс и база с колесами)

этот самый JoyLo кстати по их сравнениям оказывается удобнее эпл вижн про, что наверное не супер удивительно (VR vs gamepad), но тем не менее критично как эвиденс для того, чтобы в данных получать как можно больше success rate’ов для обучения (просто потому что человеку в качестве эксперта удобнее управлять частями робота)

сама модель же обучается под имитейшн лернинг - это DiT, который обрабатывает проприоцепцию и пойнт клауды в последовательности (модальности фьюзятся через селф аттеншн) + играет свою роль условный иерархичный предикт действий. иерархичность же заключается в принципе снизу-вверх: сначала выдаем действия для колесиков, потом для торса с кондишном на действия для колесиков, а в конце предсказывается для рук с условием под предыдущих действия.

таким образом иерархическая зависимость от действий присутствует (которая при этом сформулирована под классический форвард пасс диффужн трансформера) + так может нивелироваться распространение ошибок по предсказаниям

по видосам и графикам выглядит прикольно. особенно впечатляет момент с failure recovery behavior: со второй попытки (иногда) агент справляется выполнить таску, которую не смог, как например закрыть крышку туалета (с чем blyat многие люди до сих пор справиться не могут, как и со стульчаком)

имхо классный противовес для физикал интеллиженс (aka pi.website ), хоть и работа направлена в немного другое русло


link

demo

code-algo

code-hardware
03/17/2025, 20:10
t.me/rizzearch/883
RI
rizzearch
851 subscribers
4
183
03/14/2025, 23:54
t.me/rizzearch/881
RI
rizzearch
851 subscribers
4
183
03/14/2025, 23:54
t.me/rizzearch/879
RI
rizzearch
851 subscribers
4
184
03/14/2025, 23:54
t.me/rizzearch/882
RI
rizzearch
851 subscribers
4
182
03/14/2025, 23:54
t.me/rizzearch/880
RI
rizzearch
851 subscribers
4
4
170
LMAct: A Benchmark for In-Context Imitation Learning with Long Multimodal Demonstrations

недавно говорили про ин-контекст рл (вот здесь), теперь и дипмаинды выкатили на этот счет большой обзор в рамках ллм

уже, однако, делали работы на эту тему. например, в этой выяснили, что ллм можно в принципе использовать как экстракторы паттернов в процессах принятия решений. однако, здесь присутствует сигнал награды (то есть рл постановка), и дипмаинды тоже уже работали в направлении изолированного ин-контекст рл (например, здесь)

в этот раз авторы тестировали ллмки в мультимодальном сетапе на довольно длинном процессе имитейшн лернинга, то есть процесс принятия решений без сигнала награды, где в качестве тренировки (обычно) подаются на вход экспертное поведение

евалили closed-source модели

- Claude 3.5 Sonnet
- Gemini 1.5 Flash/Pro
- 4o
- o1-mini, o1-preview and o1

в плане тасок решили выбрать

- энву из атари, феникс (датасет для которого собирали при помощи GATO, который мы упоминали и здесь)
- шахматы (где в качестве эксперта был стокфиш, а не Leela)
- крестики-нолики, кроссворд и гридворлд
- cheetah из DMControl (тоже данные собирались через GATO)

в остальных случах, кроме крестиков-ноликов с минимаксом, данные собирались через оракула

в качестве мультимодальностей входных данных было разделение на ргб, проприоцепцию, ascii-like input & шахматные типы данных

по итогу ни в одной среде не получается ни одной модели достигнуть хотя бы половины от уровня эксперта, чьи данные они видят в качестве few-shot примеров, сколь ни увеличивай длину последовательности примеров (вплоть до одного миллиона токенов). да, есть всякие issues по поводу заведения апи под мультимодальные данные (например в клоде нельзя засунуть больше 100 картинок), но ситуация все равно довольно закономерная

получается, без сигнала реварда даже для ллмок в принятии решений никуда не деться

👀LINK
03/14/2025, 23:54
t.me/rizzearch/878
RI
rizzearch
851 subscribers
5
180
03/12/2025, 19:24
t.me/rizzearch/875
RI
rizzearch
851 subscribers
5
181
03/12/2025, 19:24
t.me/rizzearch/873
RI
rizzearch
851 subscribers
5
180
03/12/2025, 19:24
t.me/rizzearch/877
RI
rizzearch
851 subscribers
5
180
03/12/2025, 19:24
t.me/rizzearch/872
RI
rizzearch
851 subscribers
5
180
03/12/2025, 19:24
t.me/rizzearch/871
RI
rizzearch
851 subscribers
5
179
03/12/2025, 19:24
t.me/rizzearch/876
RI
rizzearch
851 subscribers
5
179
03/12/2025, 19:24
t.me/rizzearch/874
RI
rizzearch
851 subscribers
11
5
162
Learning from Reward-Free Offline Data: A Case for Planning with Latent Dynamics Models

lecun вставил dynamics model (world model) в JEPA по самые латентные помидоры

ну а если посерьезнее, то авторы решили сравнить модель динамики в ревард-фри сценариях (на достижение цели) с ансупервайзд подходами, контрастив техниками и goal-conditioned методами (о некоторых из них мы писали - HIQL & HIPL)

- ибо все вышеупомянутое является model-free а не model-based (о разнице которых мы уже чуть поподробнее говорили)
- но при этом ничего из этого не может адаптироваться к новым таскам (как ни тыкай разные параметры датасета такие как диверсити, качество и вариативность)

ну а вот в этот раз удалось помучаться с моделью мира и завести ее, при том только в латентном пространстве (то есть нету отдельного бранча на восстановление состояний, которые подаются на вход изначальной модели)

- но раз нет головы на реконструкцию, то есть JEPA (в викрег стиле) под получение вкусных репрезентаций для латентного планнинга
- как и inverse dynamics model для учета природы действий в этих самых репрезентациях (которую мы уже упоминали здесь и здесь
- при том поскольку вся суета происходит только в латентном пространстве, то этом плане метод остается консистентным для MPPI планирования

в этом примерно и заключается Planning with a Latent Dynamics Model (PLDM).

эксперименты проводили на игрушечной Two Rooms, где надо в 2д комнате с одной дверью достичь другой точки, и на лабиринтах в Mujoco PointMaze



хоть и этот авторский латентный планнинг хуже справляется после трейна на субоптимальных данных (где есть и рандомные траектории в том числе) + не особо может, в отличие от того же HIPL, в ститчинг (не только повторять трейн траектории но и комбинировать действия из них), благодаря наученной модели мира и происходит адаптация под новые лабиринты в PointMaze

👀 link, demo, code
03/12/2025, 19:24
t.me/rizzearch/870
RI
rizzearch
851 subscribers
30
1.1 k
03/10/2025, 18:59
t.me/rizzearch/869
RI
rizzearch
851 subscribers
28
1.0 k
03/10/2025, 18:59
t.me/rizzearch/867
RI
rizzearch
851 subscribers
28
1.1 k
03/10/2025, 18:59
t.me/rizzearch/868
RI
rizzearch
851 subscribers
28
1.0 k
03/10/2025, 18:59
t.me/rizzearch/866
RI
rizzearch
851 subscribers
7
28
910
Towards General-Purpose Model-Free Reinforcement Learning

Скотт Фуджимото может быть известен вам как один из пионеров современных рл методов - TD3 & TD3-BC, а так же он в принципе один из тех кто сильно продвинул область оффлайн рл (точнее model-free offline rl), когда она еще называлась батч рл

теперь, полагаю, ему надоело перебирать гиперпараметры под каждый бенчмарк чтобы vydrochit’ сота перформанс на каждом в отдельности, а захотелось отскейлить это дело созданием метода, который может выступать на около-сота уровне с фиксированным набором гиперпараметров для каждого бенчмарка

но если не хочется vydrachivat’ гиперпараметры → стоит vydrochit’ многие аспекты в пайплайне, как уже примерно делал первый автор улучшения TD3-BC → TD7 по state-action репрезентациям

только здесь пошло еще дальше: авторы добиваются такой генерализации (относительно перебора гиперпараметров) на model-free методе при помощи внедрения model-based идей (и не только) для получения cупер-пупер крутых репрезентаций

а именно

- состояния переводятся в латентное пространство (что проприоцепция, что пиксельные обсервейшны) при помощи энкодера + так же есть энкодер под состояния и действия одновременно (те самые state-action репрезентации)
- эти энкодеры обновляются в model-based стиле “анроллом динамики”: надо по горизонту восстанавливать награду, следующее латентное состояние и флаг терминальности (булево значение, которое показывает, закончился ли эпизод)
- при том последние 2 явления обучаются классически в мсе стиле, а награда восстанавливается по бинам при помощи twohot трансформации (она так же используется в дримере для предсказания реварда, да и в последнее время все чаще фигурирует как вид обучения критика через классификацию а не регрессию)
- критик же обучается через мульти-степ сумму наград по заранее выбранному горизонту
- а политика после всего этого оптимизируется в более-менее классическом стиле (разве что за нестандартный прием имхо можно посчитать гамбел софтмакс для дискретных действий)
- и это все в конце полируется тем, что семплы подаются на вход во время обучения при помощи буффера LAP, который выставляет приоритет при семплировании в соответствии с ошибкой критика (в терминологии рл это называется Temporal Difference error, TD error)

ну и вроде по экспериментам вырисовывается что-то интересное - хоть и не везде выбивается сота, но метод ощутимо находится на высоком уровне. и это все при том, что гиперпараметры не перебирались в отличие от других методов, хотя конечно остается вопрос точно ли авторы ничего не перебирали хотя бы чуть-чуть, или же как именно они решили выставить неизменяемую конфигурацию гиперов (например момент с exploration noise, значение которого они позаимствовали из предыдущих работ по d4rl, но не по атари)

а вообще в целом результаты довольно классные - еще бы такая концепция повторялась бы, если и обучать в мультитаск/мета стиле (ведь название статьи тоже на это может намекать в плане general-purpose RL), так еще и model-based это типа world models так что хайп бррррррр

👀LINK
03/10/2025, 18:59
t.me/rizzearch/865
RI
rizzearch
851 subscribers
5
186
03/07/2025, 19:43
t.me/rizzearch/864
RI
rizzearch
851 subscribers
1
8
4.9 k
Hi Robot: Open-Ended Instruction Following with Hierarchical
Vision-Language-Action Models

недавно мы уже упоминали о том, что в лоб использовать VLM для задач принятия решений не совсем оптимально, ибо модели такие создавались не на эту задачу

и вот теперь physical intelligence выпустили свое видение на этот счет, только они решили сделать это в более-менее иерархичной структуре (состоящей из двух уровней)

авторы назали Hi Robot (hierarchical interactive robot) - если проводить с концепцией Канемана

- есть Система 1: быстрая политика (в данном случае политика на флоу матчинге, не фаст), она исполняет low-level действия в соответствии с low-level языковыми коммандами и остальной инфой в виде проприоцепции и картинок. назовем это low-level process. языковые промпты кстати итеративно подаются на вход модели, так и могут меняться по ходу исполнения задачи в зависимости от преференций человека
- а есть Система 2: high-level process, который заточен на VLM, получающий текстовый инпут непосредственно от пользователя, а далее в совокупности с другими входными данными модель составляет список низкоуровневых инструкций для Системы 1 + так же здесь есть text-to-speech модуль (кстати для него использовали апи от cartesia.ai, ее мы упоминали здесь), чтобы пользователь мог получать подтверждение о своих запросах, просьбу о пояснении или сообщение об исправлении ошибок (в истории интеракции робота с реальным миром)

и хоть Система 2 получается нагроможденее, ее можно инферить реже чем низкоуровневую Систему 1 → можно сделать так, чтобы они работали с разной частотой и быть (более-менее) в шоколаде

окей, идея звучит очень здраво и возможно даже очевидно (пока дело не доходит до практики), остается вопрос в составлении датасета

датасет же составлялся частично вручную, частично синтетически

- очень детальное описание задач (накрыть на стол, сделать сендвич, пошопиться продуктами) надо было разбивать на низкоуровневую последовательность задач
- а так же еще приправить это все какими-то условиями из world knowledge моделей (e.g. user: “Can you make a sandwich for me? I’m lactose intolerant”. robot: “Sure, I won’t put cheese on it.”)
- и добавить возможность предлагать (а затем стремиться сделать) частное из недетального промпта (например “I want something sweet” в качестве юзер промпта)

кода нет, да и датасета тоже

👀LINK
03/07/2025, 19:43
t.me/rizzearch/860
RI
rizzearch
851 subscribers
4
172
03/07/2025, 19:43
t.me/rizzearch/862
RI
rizzearch
851 subscribers
4
170
03/07/2025, 19:43
t.me/rizzearch/861
RI
rizzearch
851 subscribers
4
173
03/07/2025, 19:43
t.me/rizzearch/863
RI
rizzearch
851 subscribers
5
169
03/05/2025, 19:22
t.me/rizzearch/858
RI
rizzearch
851 subscribers
5
169
03/05/2025, 19:22
t.me/rizzearch/857
RI
rizzearch
851 subscribers
5
169
03/05/2025, 19:22
t.me/rizzearch/859
RI
rizzearch
851 subscribers
5
169
03/05/2025, 19:22
t.me/rizzearch/856
RI
rizzearch
851 subscribers
1
5
149
OmniRL: In-Context Reinforcement Learning by Large-Scale Meta-Training in Randomized Worlds

не так давно снова упоминали ин-контекст рл, на этот раз авторы из китая попробовали отскейлить область по осям сбора данных и генерализации модели по распределению тасок (то есть быть способной к очень разным таскам адаптироваться)

для этого они сделали фреймворк, который назвали AnyMDP (папира пока только для полностью наблюдаемых марковских процессов принятия решений)

- представляет из себя довольно интересное явление в дискретном пространстве действий и состояний (есть и код под непрерывные пространства)
- где семплируют матрицу переходов, по которым далее так же рандомно пикают среднее и ковариацию для семплинга реварда из нормального распределения (теоретически это может покрыть любой MDP)
- и для того чтобы этот граф не был тривиальным (то есть задача имела какую-никакую сложность в рамках принятий решений), его дополнительно проверяют на связность (то есть из каждого состояния можно дойти до любого другого), диаметр матрицы смежности и на сложность процесса, которую определяют через разницу между Q функциями с разными параметрами gamma (0.99 & 0.5)
- ко всему этому добавляется сбор данных при помощи разных политик (q-learning, model-based, random, и noise distillation)

а далее к этому идет модель - трансформер через Gated Slot Attention, что-то типа чанкового аттеншнка как трансформер хл, который мы упоминали и здесь, но реализован через свои кернелы для линейного аттеншна (хотя есть и другие его вариации) + они так же упоминают и другие sequence models но почему-то никакие экспы сравнительные не добавили

во время обучения они в 3 этапа производят куррикулум лернинг

- warmup с фиксированным небольшим количеством состояний
- далее в датасет добавляются траектории с бОльшим количеством действий (я так и не понял и не увидел кстати как именно в дискретном сценарии они в модель пихают стейты бОльшей размерности + как потом учесть, что на евал тасках не будет происходить ООД момент)
- увеличение сек лена до гораздо бОльших размеров (с 8к до 64к), при том делают это в memory-efficient манере из-за чанковой и линейной природы аттеншна (градиент во время бекворд пасса сохраняется только внутри каждого чанка)

еще достоин внимания важный момент, что таргетные и входные действия получаются от 2 разных политик, reference policy & behaviour policy соответственно + дополняют входное действие от поведенческой политики понятием приора, которое интуитивно старается добавить надежность совершаемого действия. авторы добавляют это просто в контекст сразу перед действием в последовательности, в их экспах это просто айди, от какой политики идет на вход информация (одна из тех, которую я упоминал выше) + так же есть айди под UNK нужный для евала и дополнительного момента на генерализацию

по итогу появляется с такими модификациями ин-контекст рл как на новых тасках AnyMDP, так и, более того, на гимназиум средах - озере, клиффе и пендулуме, которые ну вообще никак не присутствовали на обучении (в каком-то смысле пересекается со свойствами для оффлайн рл, когда модель до этого видела википедию или синтетические игрушечные МДП)

так же они решили провести аблацию на то, что в гимназиум средах могут нормально выступать ЛЛМки - и это получается, что подтверждает тейк отсюда

👀 link, code
03/05/2025, 19:22
t.me/rizzearch/855
RI
rizzearch
851 subscribers
19
1
267
у нее походу кв кэш тоже нормально так сжали
03/03/2025, 20:07
t.me/rizzearch/854
RI
rizzearch
851 subscribers
4
280
03/03/2025, 20:00
t.me/rizzearch/850
RI
rizzearch
851 subscribers
4
281
03/03/2025, 20:00
t.me/rizzearch/853
RI
rizzearch
851 subscribers
4
247
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?

уже мы писали и про сжатие (например тут и тут), и про компрессию кв кэша в том числе, включая идею с ретривал головами и аттеншн синками

а авторы из китая этой статьи решили уточнить момент, что в основном при компрессии кэша происходит проверка на длинных контекстах как лонгбенч или иголка в сене

и, как оказывается, эта неполная картина скрывает факт того, что начинают хериться другие способности модели

- арифметика и language understanding (которые проверялись при помощи GSM8K & MMLU) начинают сбоить
- при том с уменьшением длины промпта просадка по качеству ощущается еще больше (имхо потому что и так становится меньше ключей/значений, за которые можно зацепиться, так мы еще и сверху их урезаем)
- так еще и по таскам, где сильная зависимость от промптированной информации (нельзя выехать за счет knowledge которая непосредственно присутствует в весах модели) очевидно наблюдается деградация с учетом пунктов выше
- но при этом дипсик чуть получше при этом всем выступает чем альтернативы в виде лламы
- еще выявлен эвиденс о том, что chunk-based методы компрессии медленнее деградируют при сравнении с другими → можно использовать этот факт (чтобы сделать папиру не только с результатами о том как что-то не получается у existing methods но и предложить свой хайповый сота момент)

назвали метод The ShotKV (Prefill-Decoding Separated Shot-aware KV Cache Compression), который проверяли на трех моделях 8б (в принципе как и другие методы компрессии): ллама 3.1 классическа, инструктированная и дипсик-р1-дистилл

идея такая - давайте для few-shot примеров оставлять статичный сжатый кв кэш, а именно расчитывать самые значимые примеры (по аттеншн скорам) и оставлять только их, не вылезая за часть бюджета и оставим ее фиксированной

а вторую часть бюджета будем динамически обновлять, оставляя только самые важные сгенерированные токены, где важность так же будет определяться по аттеншн скору

и вроде сохраняется концепция компрессии по чанкам, и в то же время присутствует постоянная адаптация из-за перевычислений скоров декодированных токенов

по их результатам конечно типо обгоняют, но кода нет и видимо не планируется

👀LINK
03/03/2025, 20:00
t.me/rizzearch/849
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria