Telegram channel page: rizzearch • @rizzearch

851 subscribers

1

13

266

Why do LLMs attend to the first token?

Федерико Барберо, с которым недавно вышел подкаст по одноименной статье о нестабильных репрезентациях в каузальных трансформерах, решил в этот раз получше в своей манере прочувствовать феномен аттеншн синков (кстати о них мы уже достаточно много писали - и тут и тут и тут)

а именно авторы задаются не вопросом про то, как можно использовать эти синки на практике, а почему они в принципе появляются на скейлах всех моделек - вследствие чего в процессе обучения появляется такой защитный механизм?

и если раньше интуитивно объясняли аттеншн синки как место, где скапливается “избыточная аттеншн энергия”, то здесь же Барберо говорит, что они решают 2 вида коллапса в трансформере

- representation collapse - эмбеддинги текущего и предыдущего токенов становятся все более неотличимы (особенно к концу последовательности)
- rank collapse: эмбеддинги токенов в последовательности становятся неотличимы от “среднего” эмбеддинга (становятся полностью гомогенными и неинформативными). терминология может намекать на ранги матриц, но это не связано

из ранк коллапс следует репрезентейшн коллапс, да и в принципе первый коллапс больше связан с длиной последовательности, в то время как второй говорит о размывании (или же так называемом over-mixing) информации с бОльшей глубиной модели

проверяли же они это с геммой 7б и лламами 3.1 (8б 70б 405б) по оценке синк метрики (которая по трешхолду замеряет насколько эмбеддинги активируются почти всегда), аттеншн мапам и нормам эмбеддингов

из интересного еще есть эксп, где они составляли пертурбацию в токенах (например поменяли best на greatest) в промпте. по теоретическим прикидкам авторов через Липшицеву константу, аттеншн синки помогают контролировать чувствительность модели к промпту, которая еще к тому же зависит от трейн длины контекста, глубины и количества голов → чем больше модель, тем более должно появляться якорей для стабилизации

также подтвердили зачем-то многие тейки из предшествующих статей (видимо чтобы потом и их цитировали побольше в том числе помимо первопроходцев) - например, что первому токену необязательно быть , а решает только позиция, и все равно появится синк, или как они могут помогать выставлять что-то вроде if-else утверждений в модели на проверку промпта (если в тексте есть апостроф, то соответствующая голова в соответствующем слое отреагирует, иначе же все уйдет в синк)

👀LINK

04/11/2025, 19:33