Запрети мне псевдолейблить

Продолжая тему академичных соревнований:
Forams Classification 2025

Соревнование от CVPR и хорошее место возможно откроет вам выступление на воркшопе CVPR и приглашение на конфу. Но вообще авторы в соревновании ничего не пишут и не обещают по поводу конфы. Я им на всякий случай написал имейл, так что если они вдруг сподобятся ответить- я вам расскажу. В соревновании нет медалек, так что сильной конкуренции и дядек с личными H20 не будет

Данные тоже забавные:
3D сканы окаменелых моллюсков 128x128x128 вокселей и 15 классов. Загвоздка в том, что на каждый класс дано по 15 размеченных семплов, прямо как у мня на парах по классическому CV в свое время.
Данных всего 18424 примеров, так что подавляющая часть вообще не размечена.

Метрика- F1.

План для изи ачивки в академической карьере:
1. Берем команду из 5 человек
2. Смотрим глазами все классы и каждый размечает по 300 примеров (всего уже 1500 примеров)
3. Учим на jpeg-проекциях вокселей от авторов что-нибудь простое, типа Resnet.
4. Проверяем за резнетом и исправляем ошибки для самых уверенных классов
5. Учимся еще раз
6. Проверяем еще раз
7. ...
8. PROFIT!

04/18/2025, 11:02

t.me/pseudolabeling/262

PS

2 350 subscribers

41

1.3 k

04/09/2025, 14:14

t.me/pseudolabeling/261

PS

Запрети мне псевдолейблить

2 350 subscribers

14

32

898

Новое соревнование на Kaggle:
Yale/UNC-CH - Geophysical Waveform Inversion

Цель- инвертировать отражения сейсмических волн. Надо по 3D (два направления и время) предсказать карту глубин.

На kaggle только часть датасета в 108 гб, но полный датасет весит 2.2 террабайта. Тут есть нюанс- для каждой уникальной карты глубин есть 500 замеров, чтобы их усреднить и уменьшить шум.

Метрика MAE по 69 колонкам (мультирегрессия)

По сути нам нужно из данных
p(*), t, x, z и (s + eps) вычислить c(*) в заданных точках.

Мои шесть семестров дифуров из универа напряглись, хотя гиперболическое дифференциальное уравнение в частных производных мы кажется отдельно не разбирали

Мне в свое время очень нравилась идея поженить свои знания МЛ и время потраченное на дифуры и уже была хорошая сорева для этого:
Google Brain - Ventilator Pressure Prediction

Там нужно было моделировать давление в легких в зависимости от нагнетаемого объема воздуха, что хорошо описывается дифурами, но в топовых решениях были просто plug-n-play трансформеры 😭

04/09/2025, 14:14

t.me/pseudolabeling/260

PS

Запрети мне псевдолейблить

2 350 subscribers

23

12

833

🏀Не долго музыка играла, March Mania кончилась и все команды сыграли. 🏀

ПОЛУЧИЛОСЬ ОЧЕНЬ ПЛОХО

В этот раз было достаточно много 'Внезапных побед', так что после первых раундов меня довольно быстро потопило.

Из идей, которые можно вынести на будущее:
🔸 Надо обязательно участвовать. Это буквально лотерейный билет на solo gold — самый сложный шаг на пути к Kaggle Grandmaster, и его вполне можно вытянуть даже из паблик кернела с хорошим сидом

🔸 Вместо ELO — лучше GLIKO (версия 2). Он позволяет задавать разную дисперсию силы для разных команд, что особенно важно для нестабильных команд

🔸 Смотреть надо не на разницу очков, как Raddar, а на offense-defense метрики, как Джордж. Например, в попытках атак на кольцо хорошо видно, что одни команды закидывают трёшки, а другие играют в проход под кольцо. Результаты тоже сильно разные.

🔸 Женский баскетбол требует очень "неуверенного" подхода. Уровень команд более ровный, денег меньше, тренировки проще. В гранд-финале центровая проходит под кольцо и забивает сверху, а ее даже никто не пытается заблокировать. Фэнтези-баскет какой-то.

🔸 Последние матчи команды до турнира — самые важные. Игроки в NCAA проводят максимум 4 года, а звёзды уходят в профи уже через 2. Значит, старая статистика быстро устаревает и баланс сил меняетя.

㊙ Секретный хинт: можно взять отношения шансов на победу у букмейкеров и посмотреть, где модель фатально ошибается с распределением шансов в турнире через прямую симуляцию. Я наверно в следующий раз буду с ней блендить даже. Так можно отловить 'немодельные изменения', например травмы игроков

04/08/2025, 14:04

t.me/pseudolabeling/259

PS

Запрети мне псевдолейблить

2 350 subscribers

33

2

838

Пойду вспомню статистику гуся

04/05/2025, 03:11

t.me/pseudolabeling/257

PS

Запрети мне псевдолейблить

2 350 subscribers

21

4

1.0 k

В строю наших слонов-компетишн-мастеров прибавилось:
https://t.me/AparinAI/123

04/01/2025, 14:19

t.me/pseudolabeling/256

PS

Запрети мне псевдолейблить

2 350 subscribers

1

https://t.me/computerscienceabroad/582

03/28/2025, 17:59

t.me/pseudolabeling/254

PS

Запрети мне псевдолейблить

2 350 subscribers

24

28

805

Мою элитную LMU-магистратуру в этом году закрыли, потому что она оказалась слишком дорогой для немецкого правительства. Но в Германию все еще без проблем берут всех желающих и прошедших конкурсный отбор.

Тут на дружественном канале вышла как раз подборка немецких магистратур:
->>> подборка <<<-

Добавил бы от себя, что с этого года в TUM надо платить 6к евро в год за учебу, но это только в нем и остальные универы стоят порядка 100 евро в семестр + расходы на проживание

03/28/2025, 17:59

t.me/pseudolabeling/255

PS

Запрети мне псевдолейблить

2 350 subscribers

31

54

5.5 k

🥇 Первое место на NeurIPS Lux AI 3

За первое место соперничали в основном только три топовые команды. Давайте разберем ключевые решения победителей соревы:

Массовый фичинжиниринг
• Создали более 1000+ признаков для каждого тайла (напомню, их размер — 24×24)
•Сами написали PPO с V-trace на PyTorch
• Тоже двухголовая архитектура. Одна голова выбирает действие, а вторая определяет, куда стрелять, если действие связано с выстрелом
• Приделали еще и голову, которая предсказывает, куда шагнут враги в следующий момент, даже если враг не наблюдается. Таким образом, модель научилась стрелять «вслепую» 👀
• Обучались в формате bfloat16 на 1.5 млрд матчей. Всего за всю соревновательную сессию сыграли около 20 млрд матчей ⚡

Все другие секреты PPO уже разобраны, поэтому давайте сосредоточимся на поистине уникальном приеме команды:

🔥 Противодействие Imitation Learning (тут еще есть второе мнение от настоящего грандмастера)
• С первого люкса команда понимала, что многие полагаются на imitation learning, и решила активно противодействовать этому.
• Были обучены две модели — слабая и сильная (предыдущая лучшая и текущая) — с рандомным выбором, какая из них будет играть во время инференса.
• Сильная модель работала всего в 15% случаев, но писала об этом в логи игры, позволяя после матча распарсить и понять какая модель играла и замерять эффект. Все остальное время учили IL оппонентов плохому
• Анализ логов после матчей позволял точно оценить преимущества сильной модели относительно предыдущей. К тому же, топовые команды генерировали около 1000 матчей в день уже на лб (из них ~150 с сильной моделью), так что можно было проверить статзначимость улучшения.
• Под конец модель настолько раздулась, что две модели не помещались в сабмишн, так что пришлось оставить только одну и добавить к её атрибутам шум для того, чтобы портить трейн сет всем подражателям
#lux

03/27/2025, 11:50

t.me/pseudolabeling/253

PS

Запрети мне псевдолейблить

2 350 subscribers

22

97

2.0 k

Kaggle для академиков

Прямо сейчас проходят соревнования, хорошее место в которых позволит опубликовать свой work-note и выступить с воркшопом на конфах CVPR25 (A+) / CLEF (A)

1. AnimalCLEF25 @ CVPR-FGVC & LifeCLEF
2. FungiCLEF25 @ CVPR-FGVC & LifeCLEF
3. PlantCLEF2025 @ LifeCLEF & CVPR-FGVC
4. GeoLifeCLEF25 @ CVPR & LifeCLEF
5. FathomNet 2025 @ CVPR-FGVC

Отдельно от них стоит BirdCLEF+ 2025. Это потому что за нее, в отличие от 5 предыдущих дают медальки, а значит конкуренция кратно выше. И это на самом деле очень хорошо, потому что можно на мягких лапах подкрасться к хорошим местам на первых пяти соревнованиях и против вас не будет драться на смерть весь консалтинг-отдел NVIDIA с 10к A100 в кармане. Отдел будет драться со мной за медальку на птичках.

А там глядишь, воркшоп с work-note на CVPR, магистратура в École Polytechnique и уютный офис Google в Париже с неплохой французской бытностью.

На фото это Эйфелева башня. Знаю, мыло, но ночью с рук сложно сделать совсем четкий снимок на polaroid. А почему я говорю именно про Париж- вы спросите лучше в лс.

А научиться решать соревы можно прямо вместе с @pseudolabeling

03/26/2025, 18:30

t.me/pseudolabeling/252

PS

Запрети мне псевдолейблить

2 350 subscribers

25

5

774

Опустился в бронзу из-за драмы:
Marquette, в победе которого моя модель уверена на 97%, проиграли New Mexico, причем из-за пары рандомных трехочковых в начале начали дизморалить и пытаться тоже забить издалека вместо борьбы под кольцом. Даже на графике видно, на сколько они все время были чуть-чуть позади и под конец окончательно сдали нервы. Просто сравните плотность атак из-за трехочковой линии у черных (New Mexico) и синих (Marquette)

UPD:
Драма продолжается
После этого разгона с New Mexico успел побывать на 4 🥇 месте (в деньгах 💰) и опуститься даже из бронзы на 177 место из-за какого-то неожиданно хорошего перфоманса Миссисипи

Ну что же, буду использовать полученный опыт в следующем году

03/22/2025, 18:00

t.me/pseudolabeling/251

PS

Запрети мне псевдолейблить

2 350 subscribers

30

1

790

Guess who's back, bitch

Такие конечно эмоциональные качели от 'Я БЫЛ ПРАВ С САМОГО НАЧАЛА' до 'Ну не смог и не смог, ну чего бухтеть то'

03/22/2025, 00:59

t.me/pseudolabeling/250

PS

Запрети мне псевдолейблить

2 350 subscribers

7

1

755

Пока что единственный РУЧНОЙ ЧЕРВЬ мастер в этом казино

03/21/2025, 02:20

t.me/pseudolabeling/249

PS

Запрети мне псевдолейблить

2 350 subscribers

17

3

827

March mania начался, все ставки сделаны и ставок больше нет.

Собственно задача этого когда, как и почти все время до этого- это предсказать исход матчей точнее, чем остальные кагглеры в терминах Brier-score

Здесь могла бы быть реклама вашей букмейкерской конторы.

🏀 🏀 🏀
Пока все три прогноза заходят, но и матчи вроде изи
🏀 🏀 🏀

Покупайте экспресс на матчи женской лиги NCAA

Через 19 дней будем знать результаты

03/20/2025, 22:15

t.me/pseudolabeling/248

PS

Запрети мне псевдолейблить

2 350 subscribers

21

17

564

Новый день — новый Lux. Безоговорочное второе место

#lux

На этот раз код на Rust, критика JAX и доминация на всем протяжении соревнования.

🚀 Почему Rust?
Кагглеры обоснованно решили, что JAX — это забагованная, медленная штука, которую писали резерчеры, и для нормального Gym-энва она не подходит. Поэтому взяли и закодили свою среду на чистом Rust.

В силу того, что можно было скачивать реплеи игроков и проверять, что выводы двух сред совпадают, материала для тестов было хоть отбавляй. Это сильно упростило процесс. Правда, когда организаторы внезапно релизнули балансный патч и поменяли правила на середине соревы, пришлось рефакторить и тестить снова.

Вывод: в компилируемых языках test-driven разработка — мастхэв.

🛠️ Раз уж начали, то…
Если уже написали свою среду, то почему бы сразу не запилить feature extraction? В процессе написания среды они уже глубоко погрузились в механику игры и четко знали, как игроку показывают и что. Это невероятно помогает в feature engineering, проверил на себе.

Сначала правда код не запускался в среде Kaggle, но помогла компиляция в докере через Kaggle image. В итоге кодовая база разрослась до:
📌 10к строк на Rust
📌 6.5к строк на Python

Фичи без супер-изысков:
🗾 Всё, что знаем о поле (прямо сейчас)
🗾 Всё, что видели, но больше не видим
✅ Всё, что знаем просто об игре: настройки, урон, ветер, очки противника, номер хода и т.д.
✅ Всё, что знаем о будущем игры: куда двинет ветер, какие будут препятствия и куда они двинутся

Из особо интересного: энергетические поля. Посмотрели глазами на рисунки поняли, что их не так много. Поэтому, видя кусочек карты, можно было восстановить энергию на всей карте. Это помогало эффективно планировать маршруты.

🏗️ Архитектура модели
✔ Маскирование недопустимых действий (например, нельзя выйти за карту, влететь в астероид или стрелять без энергии)
✔ ResNet со skip-connections
❌ Трансформер пробовали, но не завёлся
✔ Алгоритм обучения — PPO
✔ 600 миллионов игр для сходимости

🔥 Производительность
Редкий случай, когда авторых хвастаются железом:
💻 CPU: Ryzen 9950X
🎮 2 x GPU: 3090 + 2070 Super
🛠️ RAM: 64 GB

Скорость: 2800 степов в секунду
Для сравнения, с помощью Ray + JAX у меня получилось выжать 200 степов в секунду, и это уже было быстрее, чем у всех на форуме.

TL;DR:
1. 🔥 🦀🔥
2. ❌ JAX ❌
3. 2800 игр/сек на PPO
4. 600M эпизодов
5. ResNet все еще в моде

Если у кого есть проекты на стыке Rust и DS — пишите, очень хочу в таком поучаствовать. 🚀

Все больше вижу, как люди пишут свои маленькие тулы на компилируемых языках. Здесь раст, в #UBC был Cи. Приколы про Kaggle на C++ уже не совсем, правда?

03/18/2025, 16:22

t.me/pseudolabeling/247

PS

Запрети мне псевдолейблить

2 350 subscribers

9

18

1.0 k

Разбор решений NeuralPS Lux 3

lux

Начинаем с третьего места, которое занял @aDg4b, загала называемый нами "Ворона в шляпе". Он уже не раз участвовал в simulation-соревнованиях, в том числе выиграл первый Lux и Kore 2022. В личной беседе @aDg4b отметил, что симуляционные задачи для него – самые интересные.

Основная идея
Решение построено на Imitation Learning (IL). Вместо того, чтобы учить награды или другие механики, модель просто обучается повторять действия сильных соперников, основываясь на их наблюдениях игрового поля.

Архитектура
Модель состоит из двух частей, которые не удалось объединить в единый end-to-end пайплайн:

1. World-wise UNet – предсказывает действия для всех агентов сразу.
2. Unit-wise SAP-UNET – дополнительная сеть, работающая как "модуль наведения". Если первый UNet приказывает стрелять, этот модуль решает, куда именно.
(Если у кого-то есть идеи, как объединить такие компоненты в end-to-end модель, напишите!)

Первая сеть: World-wise UNet
Входные данные:
Полный набор информации о мире (размерность 28×24×24):
24×24 – игровое поле.
28 каналов – различные характеристики среды (тип клетки, количество энергии и т. д.), а также память о прошлых позициях кораблей, времени сколько времени не наблюдали клетоку и прочее.
Глобальные параметры матча (инжектятся в bottleneck):
Дальность видимости кораблей, дальность стрельбы, параметры "ветра" и тд.

Выход сети:
6×24×24 – вероятности каждого действия для каждой клетки.

Тут была проблема, тк этот UNet не мог корректно обработать ситуации, когда несколько юнитов пытались занять одну и ту же клетку или выстрелить по ней одновременно. Поэтому такие конфликты разрешались через рандом.

Вторая сеть: Unit-wise SAP-UNET
Входные данные:
Полный feature map + маска позиции юнита.

Выходные данные:
24×24 – вероятности выбора клетки для стрельбы.

IL
В качестве "донора" для IL использовались топ-2 команды (о которых мы еще поговорим):
1. С помощью Kaggle API загружались данные о матчах
2. Отбирались только те, где донор победил
3. В них фильтровались победы, где результат матча еще не предрешен.
Этого оказалось достаточно для сходимости модели, что для меня удивительно.

"Хорошие кагглеры думают, великие — воруют" (с) Фанаты Плескова

03/17/2025, 16:55

t.me/pseudolabeling/246

PS

Запрети мне псевдолейблить

2 350 subscribers

22

17

737

Смотрю решения прошлого года по March Mania. Ежегодное соревнование по предсказанию исходов баскетбольных матчей, мощное как четвертый форвард, резкое как V-cut. В свое время ходил на секцию лет 8, так что грех не поучаствовать.

Ну так вот, бекграунды победителей прошлых лет:
1. Я учитель статов и победил околослучайно через симуляции из паблик кернела
2. Я работаю в гемблинге и это мой третий год участия. В прошлый раз я взял 7 место. В позапрошлый- сотое
3. Адам, город Мачиган, это мое первое соревнование после титаника. Ваще то я на си пишу
4. Нефритовый стержень партия удар (十有五而志于学- это цитата Конфуция)
5. Стефан, город Бруклин, 18 лет, я взял фичи и чет с ними сделал и даже чет завелось
6. Пхд студент, у которого тема тезиса- беттинг на соревнованиях
7. РУЧНОЙ ЧЕРВЬ (Самсон, если ты подписан и читаешь это, то напиши в лс)
8. Безликий анонимный японец

03/16/2025, 12:05

t.me/pseudolabeling/245

PS

Запрети мне псевдолейблить

2 350 subscribers

34

257

17 k

03/12/2025, 18:33

t.me/pseudolabeling/244

PS

Запрети мне псевдолейблить

2 350 subscribers

Repost

7

983

03/12/2025, 13:04

t.me/pseudolabeling/243

PS

Запрети мне псевдолейблить

2 350 subscribers

8

2

1.4 k

Сходка админов тг каналов
Предлагаю перечислить их всех в комментах

03/12/2025, 13:04

t.me/pseudolabeling/242

PS

Запрети мне псевдолейблить

2 350 subscribers

62

24

1.4 k

А вот из ржомб из моей дс-жизни:
Раз в пару месяцев ко мне приходит в лс бот из AISender. Это такой провайдер этих всех духовных ботов, заманивающих вас по ссылке в комментах. Но иногда они приходят в лс и предлагают свои «услуги»
Обычно такие боты используют API (опенаи например) и у них есть бюджет на количество запросов. В прошлый раз я кормил его сценарием Шрека до тех пор, пока у бота не кончились токены.
В этот раз я нашел СЕО AISender в линкдине и кормил бота утверждением в нечастивости формата «Рустам Габидуллин XXX”

Видимо Рустам делает работу над ошибками, потому что через пару часов после ухода бота в оффлайн (токены кончились), бот мне ответил «Дмитрий Руденко ХХХ» и кинул в чс.

Мораль:
Рустам обучается, но в наших силах истратить все его токены на сценарии уже почти пяти частей Шрека

А вы как боретесь с этим порождением гениальных маркетологов?

03/11/2025, 19:28

t.me/pseudolabeling/241

PS

Запрети мне псевдолейблить

2 350 subscribers

21

6

1.3 k

Waagh закончен, получилось выбиться только в ~65 место. 🥉
Финальные результаты будут через две недели, когда боты в симуляции сойдутся и рейтинг устаканится.
Даже видимо в глобальном рейтинге каггла упаду немного, но не сильно страшно.

Разборы лучших решений, как только они появятся приведу. В это соревновании было очень много разных приколов и оно было сильно более вознаграждающим, чем среднее обычно. Думаю буду в других симуляциях тоже участвовать, потому что пространство для маневра бешеное, а конкуренция будто бы даже ниже
Верхнеуровнево можно наше решение тут оценить:

https://www.kaggle.com/competitions/lux-ai-season-3/discussion/567567

Вместе с разборами топовых решений приплету еще свои идеи, если их никто не реализовал.

03/11/2025, 17:55

t.me/pseudolabeling/240

PS

Запрети мне псевдолейблить

2 350 subscribers

6

5

712

Хочу сильно стукаться и объявляю Waaagh в секторе Lux AI Season 3

03/05/2025, 16:32

t.me/pseudolabeling/239

PS

Запрети мне псевдолейблить

2 350 subscribers

3

угу, понял

03/05/2025, 13:59

t.me/pseudolabeling/238

PS

Запрети мне псевдолейблить

2 350 subscribers

15

11

628

В соревнова LUX 3 забавная ситуация:
1. Осталось 12 дней до дедлайна
2. 5 дней до конца соревы
3. До сих пор в ноутбуках нет работающего решения на РЛ, только хороший бейзлайн бот на эмпириках. У меня вот RL тоже не заводится, особенно self-play
4. Из топовых команд кажется у топ 10-2 только получилось завести разного уровня рльные решения
5. Простая докрутка публичного бота на эмпириках дает бронзу

А у вас как дела?

02/27/2025, 03:31

t.me/pseudolabeling/237

PS

Запрети мне псевдолейблить

2 350 subscribers

11

3

823

Вот времена
В го дженерики
В питоне можно выключить GIL
Скоро в плюсах появится лайфтаймы

02/18/2025, 16:21

t.me/pseudolabeling/236

PS

Запрети мне псевдолейблить

2 350 subscribers

33

17

608

Бета-тест — это когда ты не уверен в своём глобальном апдейте и выкатываешь его на ограниченное число пользователей, чтобы собрать обратную связь.

Альфа-тест — это когда ты настолько не уверен в своём апдейте, что сначала платишь людям за то, чтобы они его попробовали.

Сигма-тест — это когда ты сразу выкатываешь и сразу наблюдаешь за падающими графиками.

02/12/2025, 14:36

t.me/pseudolabeling/235

PS

Запрети мне псевдолейблить

2 350 subscribers

Repost

6

4

673

#intro

Welcome to Wonderland Тати.

Буду писать о науке, машинном обучении, искусстве, книгах, психологии, философии, карьере, фейлах, лайфхаках, Ирландии и мире.

И конечно же, кулстори из жизни, которые все так любят.

02/11/2025, 16:38

t.me/pseudolabeling/234

PS

Запрети мне псевдолейблить

2 350 subscribers

11

2

686

Тати оказывается тоже завела канал. Это человек, с которым я нафармил свою первую медальку в 2019 году за компетишны и стафф инженер Linkedin. Когда мы решали Lyft Тати созванивалась с нами из декрета и решала кагл, пока ребенок спит.

02/11/2025, 16:38

t.me/pseudolabeling/233

PS

Запрети мне псевдолейблить

2 350 subscribers

38

5

815

Забыл вам сказать подписчики. Видимо это сейчас важно. Все это время мне было 17 лет

Админу LDT 16, он у нас в школе на воротах на футбике стоит и шитпостит
Валера Бабушкин наш физрук

02/07/2025, 23:12

t.me/pseudolabeling/232

PS

Запрети мне псевдолейблить

2 350 subscribers

15

2

842

Кстати, всем любителям дешевого дофамина вчера раздали еще и бейджи за Санту. Причем за всех сант- одинаковый бейдж

02/07/2025, 16:59

t.me/pseudolabeling/231

PS

Запрети мне псевдолейблить

2 350 subscribers

15

8

1.1 k

Наше комьюнити хостит сореву ☝️. Я пока топ 1 на лб с первого же сабмита.
Главный приз- соавторство в публикации в A* журнале по комбинаторике

Go get me

02/06/2025, 18:02

t.me/pseudolabeling/230

PS

Запрети мне псевдолейблить

2 350 subscribers

Repost

4

9

638

Неожиданное. Запустил сореву на каггле. https://www.kaggle.com/competitions/lrx-oeis-a-186783-brainstorm-math-conjecture/overview

Хорошее решение ML/RL-ем имеет важное прикладное значение и можно стать соавтором статьи. Алгоритмические не так интересны, потому что плохо обобщаются.

02/06/2025, 18:01

t.me/pseudolabeling/229

PS

Запрети мне псевдолейблить

2 350 subscribers

29

16

890

Сейчас проходит еще одна сорева NIPS.
Это RL-соревнование, так что участники соревнуются напрямую против друг друга и можно посмотреть реплеи своего бота.

Второй на лб кагглер пишет ГГ прямо на доске если выигрывает или проигрывает 3-0 (потому что раундов 5 и он уже победил/проиграл)

02/05/2025, 17:15

t.me/pseudolabeling/228

PS

Запрети мне псевдолейблить

2 350 subscribers

28

783

Влетел на 390 место и 16,616 рейтинга. ВКУСНО 🎲

02/04/2025, 00:28

t.me/pseudolabeling/227

PS

Запрети мне псевдолейблить

2 350 subscribers

17

12

874

Про то, почему не работал бимсерч и чем санта 24 отличается от санты 23

В прошлом (2023) «Санте» требовалось собрать многомерный кубик Рубика в упорядоченное положение кратчайшим путём. Это классическая задача поиска кратчайшего пути: при наличии подходящего алгоритма и отсутствии отрицательных циклов её можно решить в полиномиальное время. Даже если точное решение найти затруднительно, задачу можно разбить на подзадачи и последовательно ограничивать поиск, отсекая пути, которые уже заведомо не могут быть короче найденного решения, а потом искать оптимизации между промежуточными пунктами с помощью бимсерча.

В «Санте» 2024 года мы имеем более сложную задачу: нужно переставить заданные слова в таком порядке, чтобы минимизировать перплексию для модели Gemma-2-9b. Иначе говоря, это задача коммивояжёра (TSP) (а еще лучше задача о Питербуржских мостах): надо обойти «города» (здесь — слова) и вернуться к начальному условию или достичь некоторого состояния, при этом пропускать слова нельзя. TSP относится к классу NP-трудных задач, и при более чем 66 «городах» (в нашем случае слов около 100) её невозможно точно решить перебором за разумное время: потребуются миллиарды лет вычислений даже на гипотетическом сверхмощном компьютере.

Почему beam search (и аналогичные алгоритмы поиска кратчайшего пути) в данном случае не помогают? Основная причина в том, что в задаче коммивояжёра, по сути, могут существовать «отрицательные циклы» с точки зрения нашей целевой функции (перплексии). В классическом поиске кратчайшего пути алгоритмы гарантированно работают только при условии, что нет отрицательных циклов, т.е. нет подпути, который имеет отрицательную длину. D 2024 же нам специально нужно найти такую последовательность (цикл посещения всех «городов»), при которой итоговая «стоимость» (перплексия) окажется минимальной. Метод beam search, который хорош в задачах без отрицательных циклов, не способен эффективно отсеивать невыгодные ветви в условиях просто потому, что не обладает достаточной информацией, где каждое добавление нового «города» может кардинально изменить оценку перплексии.

Поскольку слова пропускать нельзя, обойти «сложные» участки не получится. Задача действительно носит характер TSP, а он, не допускает эффективных точных решений при большом количестве вершин. Поэтому для «Санты» 2024 года оправдано применение эвристических или стохастических методов (например, отжига или других метаэвристик), которые не гарантируют точное решение, но на практике позволяют получить приемлемый результат за разумное время.

TLDR: бимсерч не сможет развернуться, потому что задизайнен для отсутствия негативных циклов. Это не мешает ему хорошие решения искать в ЛЛМках, потому что там набор слов не ограничен и можно их использовать сколько угодно раз. Кстати, я тут понял, что задача этого года- это задача поиска гамильтонова пути, но они в одном классе эквивалентности.

02/03/2025, 17:58

t.me/pseudolabeling/226

PS

Запрети мне псевдолейблить

2 350 subscribers

42

19

828

🎅 Santa 2024 Top-1 🎅

Описание задачи
Участникам предлагалось решить достаточно простую задачу:
Переставить фиксированный набор слов так, чтобы итоговая последовательность минимизировала перплексию модели Gemma-2-9b.
При этом можно было использовать только перестановки заданных слов.

Общая картина
Практически все участники использовали те или иные алгоритмы отжига (simulated annealing) или их модификации, поэтому публичные решения были довольно похожи. Даже чел с 2 места просто использовал SA. В соревновании отсутствовал приватный LB — использовался только публичный, а значит и шейкапа не было.

Победители обнаружили глобальный оптимум ещё два месяца назад и спокойно чилили до последней ночи соревнования. Почему глобальный оптимум? Потому что все команды из золота финишировали с одним и тем же скором. Слишком большое совпадение. Как принято, были и китайские анонимные гении, которые две недели назад зарегали аккаунт и влетели в золото в последний день с 10 сабмитов. Но вернемся к победителям:

Примочки
Дистилировали Gemma-2-9b
Так как домен ограничен сотней слов, они смогли сжать модель до 1/5000 от оригинала. Я тоже пытался дистиллировать, но не смог добиться стабильного результата. Теперь выпрашиваю на форуме дать посдказок и правильных ответов, а то месяц мучал этот подход. Мб все же надо решать nlp соревы иногда.

Основной алгоритм победы — Iterated Local Search (ILS):
Принцип опишем так:

1. Инициализация:
Выбираем стартовое решение — исходная последовательность слов. Положим, лучший паблик из открытых.

2. Пертурбация:
Из текущего решения выбираем блок из нескольких подряд идущих слов, которые затем случайным образом переставляем. Это позволяет "оттолкнуться" от текущего состояния и исследовать новые варианты.

3. Локальный поиск:
После пертурбации в стиле брутфорса пытаемся переставить каждое слово. Полученный результат фиксируем, а его оценка с не большим марджином (10%), запоминаем, чтобы отсекать неперспективные варианты.

4. Поиск в глубину:
Затем перебираем все перестановки с глубиной N+1 (переставляем два слова, потом три слова всеми возможными вариантами). Если ни одно из новых решений не оказывается лучше установленного порога, текущий локальный оптимум считается финальным, и алгоритм возвращается к пертрубации.

Все, готово. Ставим сосиски на гпу и ждем, когда они превратятся в пепел.

Фанфэктс:
Один из авторов активно участвовал в соревнованиях по эмпирическому поиску на протяжении последнего года просто потому, что ему еще прошлный санта сильно зашел.

АХ НУ ДА, БИМ СЕРЧ НЕ РАБОТАЛ, ФИГНЯ БИМ СЕРЧ ВАШ. Он для совсем других целей. Ставьте 🧠️️️️️️ если хотите, чтобы я объяснил

02/01/2025, 16:07

t.me/pseudolabeling/225

PS

Запрети мне псевдолейблить

2 350 subscribers

7

4

804

Заняли 23 место в Santa 2024 и нафармили серебро 🥈. К сожалению в этот без прогресса к КГМ.
После понижения рейтинга (случается после конца каждого соревнования) у меня осталось 13,971. По моим расчетам должен допрыгнуть до 15к и с 470 места влететь в <400, чем, вероятно, обновлю свой лучший результат в рейтинге снова.

02/01/2025, 16:06

t.me/pseudolabeling/224

PS

Запрети мне псевдолейблить

2 350 subscribers

1

Закончился Santa 2024. Взяли 23 место
Задача была простая и ясная:
Переставить фиксированный набор слов так, чтобы они минимизировали перплексию для Gemma-2-9b. Можно использовать только перестановки заданных слов.

Примерно все использовали так или иначе алгоритмы отжига, так что все решения похожие. Из примечательного- не было приватного лб, только публичный. Обошлись совершенно без шейкапа.

Лучшая команда нашла глобальный оптимум еще два месяца назад и спокойно себе чилила на пьедестале до самой вчерашней ночи.

Сначала дополнительные примочки:
Дистилировали Gemma-2-9b для ограниченного домена до 1/5000 от оригинального размера. Я тоже пытался, но у меня не завелось. Выпрашиваю у победителей гайд по тому, как правильно было дистилировать, а то жалко месяц попыток свой.

Основная идея решения:

02/01/2025, 15:33

t.me/pseudolabeling/223

PS

Запрети мне псевдолейблить

2 350 subscribers

20

13

794

Системы рейтинга слишком аддиктивны. Летом наконец-то смог апмнуть ммр выше, чем в свои 16 лет и забил. Теперь сижу и считаю, сколько рейтинга примерно получу по завершению следующей соревы и в какой ранг войду.
На каггле все же легче в тысячники зайти, чем в доте
И самое главное- иммортал драфт доступен почти в самом начале, никаких переливов

01/28/2025, 20:35

t.me/pseudolabeling/222