Your trial period has ended!
For full access to functionality, please pay for a premium subscription
PS
Запрети мне псевдолейблить
https://t.me/pseudolabeling
Channel age
Created
Language
Russian
0.92%
ER (week)
10.23%
ERR (week)

Сутра:

1. Kaggle решат

2. Соревы обозреват

3. Gold фармить

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 42 results
Approved:
Если занять хорошее место на Forams Classification 2025, то позовут выступать на семинаре CVPR.
04/23/2025, 11:26
t.me/pseudolabeling/264
Python's new t-strings (Score: 154+ in 5 hours)

Link: https://readhacker.news/s/6t8rs
Comments: https://readhacker.news/c/6t8rs
04/21/2025, 16:28
t.me/pseudolabeling/263
Продолжая тему академичных соревнований:
Forams Classification 2025

Соревнование от CVPR и хорошее место возможно откроет вам выступление на воркшопе CVPR и приглашение на конфу. Но вообще авторы в соревновании ничего не пишут и не обещают по поводу конфы. Я им на всякий случай написал имейл, так что если они вдруг сподобятся ответить- я вам расскажу. В соревновании нет медалек, так что сильной конкуренции и дядек с личными H20 не будет

Данные тоже забавные:
3D сканы окаменелых моллюсков 128x128x128 вокселей и 15 классов. Загвоздка в том, что на каждый класс дано по 15 размеченных семплов, прямо как у мня на парах по классическому CV в свое время.
Данных всего 18424 примеров, так что подавляющая часть вообще не размечена.

Метрика- F1.


План для изи ачивки в академической карьере:
1. Берем команду из 5 человек
2. Смотрим глазами все классы и каждый размечает по 300 примеров (всего уже 1500 примеров)
3. Учим на jpeg-проекциях вокселей от авторов что-нибудь простое, типа Resnet.
4. Проверяем за резнетом и исправляем ошибки для самых уверенных классов
5. Учимся еще раз
6. Проверяем еще раз
7. ...
8. PROFIT!
04/18/2025, 11:02
t.me/pseudolabeling/262
04/09/2025, 14:14
t.me/pseudolabeling/261
Новое соревнование на Kaggle:
Yale/UNC-CH - Geophysical Waveform Inversion

Цель- инвертировать отражения сейсмических волн. Надо по 3D (два направления и время) предсказать карту глубин.

На kaggle только часть датасета в 108 гб, но полный датасет весит 2.2 террабайта. Тут есть нюанс- для каждой уникальной карты глубин есть 500 замеров, чтобы их усреднить и уменьшить шум.

Метрика MAE по 69 колонкам (мультирегрессия)

По сути нам нужно из данных
p(*), t, x, z и (s + eps) вычислить c(*) в заданных точках.

Мои шесть семестров дифуров из универа напряглись, хотя гиперболическое дифференциальное уравнение в частных производных мы кажется отдельно не разбирали

Мне в свое время очень нравилась идея поженить свои знания МЛ и время потраченное на дифуры и уже была хорошая сорева для этого:
Google Brain - Ventilator Pressure Prediction

Там нужно было моделировать давление в легких в зависимости от нагнетаемого объема воздуха, что хорошо описывается дифурами, но в топовых решениях были просто plug-n-play трансформеры 😭
04/09/2025, 14:14
t.me/pseudolabeling/260
🏀Не долго музыка играла, March Mania кончилась и все команды сыграли. 🏀

ПОЛУЧИЛОСЬ ОЧЕНЬ ПЛОХО

В этот раз было достаточно много 'Внезапных побед', так что после первых раундов меня довольно быстро потопило.

Из идей, которые можно вынести на будущее:
🔸 Надо обязательно участвовать. Это буквально лотерейный билет на solo gold — самый сложный шаг на пути к Kaggle Grandmaster, и его вполне можно вытянуть даже из паблик кернела с хорошим сидом

🔸 Вместо ELO — лучше GLIKO (версия 2). Он позволяет задавать разную дисперсию силы для разных команд, что особенно важно для нестабильных команд

🔸 Смотреть надо не на разницу очков, как Raddar, а на offense-defense метрики, как Джордж. Например, в попытках атак на кольцо хорошо видно, что одни команды закидывают трёшки, а другие играют в проход под кольцо. Результаты тоже сильно разные.

🔸 Женский баскетбол требует очень "неуверенного" подхода. Уровень команд более ровный, денег меньше, тренировки проще. В гранд-финале центровая проходит под кольцо и забивает сверху, а ее даже никто не пытается заблокировать. Фэнтези-баскет какой-то.

🔸 Последние матчи команды до турнира — самые важные. Игроки в NCAA проводят максимум 4 года, а звёзды уходят в профи уже через 2. Значит, старая статистика быстро устаревает и баланс сил меняетя.

㊙ Секретный хинт: можно взять отношения шансов на победу у букмейкеров и посмотреть, где модель фатально ошибается с распределением шансов в турнире через прямую симуляцию. Я наверно в следующий раз буду с ней блендить даже. Так можно отловить 'немодельные изменения', например травмы игроков
04/08/2025, 14:04
t.me/pseudolabeling/259
Пойду вспомню статистику гуся
04/05/2025, 03:11
t.me/pseudolabeling/257
В строю наших слонов-компетишн-мастеров прибавилось:
https://t.me/AparinAI/123
04/01/2025, 14:19
t.me/pseudolabeling/256
https://t.me/computerscienceabroad/582
03/28/2025, 17:59
t.me/pseudolabeling/254
Мою элитную LMU-магистратуру в этом году закрыли, потому что она оказалась слишком дорогой для немецкого правительства. Но в Германию все еще без проблем берут всех желающих и прошедших конкурсный отбор.

Тут на дружественном канале вышла как раз подборка немецких магистратур:
->>> подборка <<<-

Добавил бы от себя, что с этого года в TUM надо платить 6к евро в год за учебу, но это только в нем и остальные универы стоят порядка 100 евро в семестр + расходы на проживание
03/28/2025, 17:59
t.me/pseudolabeling/255
🥇 Первое место на NeurIPS Lux AI 3

За первое место соперничали в основном только три топовые команды. Давайте разберем ключевые решения победителей соревы:

Массовый фичинжиниринг
• Создали более 1000+ признаков для каждого тайла (напомню, их размер — 24×24)
•Сами написали PPO с V-trace на PyTorch
• Тоже двухголовая архитектура. Одна голова выбирает действие, а вторая определяет, куда стрелять, если действие связано с выстрелом
• Приделали еще и голову, которая предсказывает, куда шагнут враги в следующий момент, даже если враг не наблюдается. Таким образом, модель научилась стрелять «вслепую» 👀
• Обучались в формате bfloat16 на 1.5 млрд матчей. Всего за всю соревновательную сессию сыграли около 20 млрд матчей ⚡

Все другие секреты PPO уже разобраны, поэтому давайте сосредоточимся на поистине уникальном приеме команды:

🔥 Противодействие Imitation Learning (тут еще есть второе мнение от настоящего грандмастера)
• С первого люкса команда понимала, что многие полагаются на imitation learning, и решила активно противодействовать этому.
• Были обучены две модели — слабая и сильная (предыдущая лучшая и текущая) — с рандомным выбором, какая из них будет играть во время инференса.
• Сильная модель работала всего в 15% случаев, но писала об этом в логи игры, позволяя после матча распарсить и понять какая модель играла и замерять эффект. Все остальное время учили IL оппонентов плохому
• Анализ логов после матчей позволял точно оценить преимущества сильной модели относительно предыдущей. К тому же, топовые команды генерировали около 1000 матчей в день уже на лб (из них ~150 с сильной моделью), так что можно было проверить статзначимость улучшения.
• Под конец модель настолько раздулась, что две модели не помещались в сабмишн, так что пришлось оставить только одну и добавить к её атрибутам шум для того, чтобы портить трейн сет всем подражателям
#lux
03/27/2025, 11:50
t.me/pseudolabeling/253
Kaggle для академиков

Прямо сейчас проходят соревнования, хорошее место в которых позволит опубликовать свой work-note и выступить с воркшопом на конфах CVPR25 (A+) / CLEF (A)

1. AnimalCLEF25 @ CVPR-FGVC & LifeCLEF
2. FungiCLEF25 @ CVPR-FGVC & LifeCLEF
3. PlantCLEF2025 @ LifeCLEF & CVPR-FGVC
4. GeoLifeCLEF25 @ CVPR & LifeCLEF
5. FathomNet 2025 @ CVPR-FGVC

Отдельно от них стоит BirdCLEF+ 2025. Это потому что за нее, в отличие от 5 предыдущих дают медальки, а значит конкуренция кратно выше. И это на самом деле очень хорошо, потому что можно на мягких лапах подкрасться к хорошим местам на первых пяти соревнованиях и против вас не будет драться на смерть весь консалтинг-отдел NVIDIA с 10к A100 в кармане. Отдел будет драться со мной за медальку на птичках.

А там глядишь, воркшоп с work-note на CVPR, магистратура в École Polytechnique и уютный офис Google в Париже с неплохой французской бытностью.

На фото это Эйфелева башня. Знаю, мыло, но ночью с рук сложно сделать совсем четкий снимок на polaroid. А почему я говорю именно про Париж- вы спросите лучше в лс.

А научиться решать соревы можно прямо вместе с @pseudolabeling
03/26/2025, 18:30
t.me/pseudolabeling/252
Опустился в бронзу из-за драмы:
Marquette, в победе которого моя модель уверена на 97%, проиграли New Mexico, причем из-за пары рандомных трехочковых в начале начали дизморалить и пытаться тоже забить издалека вместо борьбы под кольцом. Даже на графике видно, на сколько они все время были чуть-чуть позади и под конец окончательно сдали нервы. Просто сравните плотность атак из-за трехочковой линии у черных (New Mexico) и синих (Marquette)

UPD:
Драма продолжается
После этого разгона с New Mexico успел побывать на 4 🥇 месте (в деньгах 💰) и опуститься даже из бронзы на 177 место из-за какого-то неожиданно хорошего перфоманса Миссисипи

Ну что же, буду использовать полученный опыт в следующем году
03/22/2025, 18:00
t.me/pseudolabeling/251
Guess who's back, bitch

Такие конечно эмоциональные качели от 'Я БЫЛ ПРАВ С САМОГО НАЧАЛА' до 'Ну не смог и не смог, ну чего бухтеть то'
03/22/2025, 00:59
t.me/pseudolabeling/250
Пока что единственный РУЧНОЙ ЧЕРВЬ мастер в этом казино
03/21/2025, 02:20
t.me/pseudolabeling/249
March mania начался, все ставки сделаны и ставок больше нет.

Собственно задача этого когда, как и почти все время до этого- это предсказать исход матчей точнее, чем остальные кагглеры в терминах Brier-score

Здесь могла бы быть реклама вашей букмейкерской конторы.

🏀 🏀 🏀
Пока все три прогноза заходят, но и матчи вроде изи
🏀 🏀 🏀

Покупайте экспресс на матчи женской лиги NCAA

Через 19 дней будем знать результаты
03/20/2025, 22:15
t.me/pseudolabeling/248
Новый день — новый Lux. Безоговорочное второе место

#lux

На этот раз код на Rust, критика JAX и доминация на всем протяжении соревнования.

🚀 Почему Rust?
Кагглеры обоснованно решили, что JAX — это забагованная, медленная штука, которую писали резерчеры, и для нормального Gym-энва она не подходит. Поэтому взяли и закодили свою среду на чистом Rust.

В силу того, что можно было скачивать реплеи игроков и проверять, что выводы двух сред совпадают, материала для тестов было хоть отбавляй. Это сильно упростило процесс. Правда, когда организаторы внезапно релизнули балансный патч и поменяли правила на середине соревы, пришлось рефакторить и тестить снова.

Вывод: в компилируемых языках test-driven разработка — мастхэв.

🛠️ Раз уж начали, то…
Если уже написали свою среду, то почему бы сразу не запилить feature extraction? В процессе написания среды они уже глубоко погрузились в механику игры и четко знали, как игроку показывают и что. Это невероятно помогает в feature engineering, проверил на себе.

Сначала правда код не запускался в среде Kaggle, но помогла компиляция в докере через Kaggle image. В итоге кодовая база разрослась до:
📌 10к строк на Rust
📌 6.5к строк на Python

Фичи без супер-изысков:
🗾 Всё, что знаем о поле (прямо сейчас)
🗾 Всё, что видели, но больше не видим
✅ Всё, что знаем просто об игре: настройки, урон, ветер, очки противника, номер хода и т.д.
✅ Всё, что знаем о будущем игры: куда двинет ветер, какие будут препятствия и куда они двинутся

Из особо интересного: энергетические поля. Посмотрели глазами на рисунки поняли, что их не так много. Поэтому, видя кусочек карты, можно было восстановить энергию на всей карте. Это помогало эффективно планировать маршруты.

🏗️ Архитектура модели
✔ Маскирование недопустимых действий (например, нельзя выйти за карту, влететь в астероид или стрелять без энергии)
✔ ResNet со skip-connections
❌ Трансформер пробовали, но не завёлся
✔ Алгоритм обучения — PPO
✔ 600 миллионов игр для сходимости

🔥 Производительность
Редкий случай, когда авторых хвастаются железом:
💻 CPU: Ryzen 9950X
🎮 2 x GPU: 3090 + 2070 Super
🛠️ RAM: 64 GB

Скорость: 2800 степов в секунду
Для сравнения, с помощью Ray + JAX у меня получилось выжать 200 степов в секунду, и это уже было быстрее, чем у всех на форуме.

TL;DR:
1. 🔥 🦀🔥
2. ❌ JAX ❌
3. 2800 игр/сек на PPO
4. 600M эпизодов
5. ResNet все еще в моде

Если у кого есть проекты на стыке Rust и DS — пишите, очень хочу в таком поучаствовать. 🚀

Все больше вижу, как люди пишут свои маленькие тулы на компилируемых языках. Здесь раст, в #UBC был Cи. Приколы про Kaggle на C++ уже не совсем, правда?
03/18/2025, 16:22
t.me/pseudolabeling/247
Разбор решений NeuralPS Lux 3

lux

Начинаем с третьего места, которое занял @aDg4b, загала называемый нами "Ворона в шляпе". Он уже не раз участвовал в simulation-соревнованиях, в том числе выиграл первый Lux и Kore 2022. В личной беседе @aDg4b отметил, что симуляционные задачи для него – самые интересные.

Основная идея
Решение построено на Imitation Learning (IL). Вместо того, чтобы учить награды или другие механики, модель просто обучается повторять действия сильных соперников, основываясь на их наблюдениях игрового поля.

Архитектура
Модель состоит из двух частей, которые не удалось объединить в единый end-to-end пайплайн:

1. World-wise UNet – предсказывает действия для всех агентов сразу.
2. Unit-wise SAP-UNET – дополнительная сеть, работающая как "модуль наведения". Если первый UNet приказывает стрелять, этот модуль решает, куда именно.
(Если у кого-то есть идеи, как объединить такие компоненты в end-to-end модель, напишите!)

Первая сеть: World-wise UNet
Входные данные:
Полный набор информации о мире (размерность 28×24×24):
24×24 – игровое поле.
28 каналов – различные характеристики среды (тип клетки, количество энергии и т. д.), а также память о прошлых позициях кораблей, времени сколько времени не наблюдали клетоку и прочее.
Глобальные параметры матча (инжектятся в bottleneck):
Дальность видимости кораблей, дальность стрельбы, параметры "ветра" и тд.

Выход сети:
6×24×24 – вероятности каждого действия для каждой клетки.

Тут была проблема, тк этот UNet не мог корректно обработать ситуации, когда несколько юнитов пытались занять одну и ту же клетку или выстрелить по ней одновременно. Поэтому такие конфликты разрешались через рандом.

Вторая сеть: Unit-wise SAP-UNET
Входные данные:
Полный feature map + маска позиции юнита.

Выходные данные:
24×24 – вероятности выбора клетки для стрельбы.

IL
В качестве "донора" для IL использовались топ-2 команды (о которых мы еще поговорим):
1. С помощью Kaggle API загружались данные о матчах
2. Отбирались только те, где донор победил
3. В них фильтровались победы, где результат матча еще не предрешен.
Этого оказалось достаточно для сходимости модели, что для меня удивительно.

"Хорошие кагглеры думают, великие — воруют" (с) Фанаты Плескова
03/17/2025, 16:55
t.me/pseudolabeling/246
Смотрю решения прошлого года по March Mania. Ежегодное соревнование по предсказанию исходов баскетбольных матчей, мощное как четвертый форвард, резкое как V-cut. В свое время ходил на секцию лет 8, так что грех не поучаствовать.

Ну так вот, бекграунды победителей прошлых лет:
1. Я учитель статов и победил околослучайно через симуляции из паблик кернела
2. Я работаю в гемблинге и это мой третий год участия. В прошлый раз я взял 7 место. В позапрошлый- сотое
3. Адам, город Мачиган, это мое первое соревнование после титаника. Ваще то я на си пишу
4. Нефритовый стержень партия удар (十有五而志于学- это цитата Конфуция)
5. Стефан, город Бруклин, 18 лет, я взял фичи и чет с ними сделал и даже чет завелось
6. Пхд студент, у которого тема тезиса- беттинг на соревнованиях
7. РУЧНОЙ ЧЕРВЬ (Самсон, если ты подписан и читаешь это, то напиши в лс)
8. Безликий анонимный японец
03/16/2025, 12:05
t.me/pseudolabeling/245
03/12/2025, 18:33
t.me/pseudolabeling/244
03/12/2025, 13:04
t.me/pseudolabeling/243
Сходка админов тг каналов
Предлагаю перечислить их всех в комментах
03/12/2025, 13:04
t.me/pseudolabeling/242
А вот из ржомб из моей дс-жизни:
Раз в пару месяцев ко мне приходит в лс бот из AISender. Это такой провайдер этих всех духовных ботов, заманивающих вас по ссылке в комментах. Но иногда они приходят в лс и предлагают свои «услуги»
Обычно такие боты используют API (опенаи например) и у них есть бюджет на количество запросов. В прошлый раз я кормил его сценарием Шрека до тех пор, пока у бота не кончились токены.
В этот раз я нашел СЕО AISender в линкдине и кормил бота утверждением в нечастивости формата «Рустам Габидуллин XXX”

Видимо Рустам делает работу над ошибками, потому что через пару часов после ухода бота в оффлайн (токены кончились), бот мне ответил «Дмитрий Руденко ХХХ» и кинул в чс.

Мораль:
Рустам обучается, но в наших силах истратить все его токены на сценарии уже почти пяти частей Шрека

А вы как боретесь с этим порождением гениальных маркетологов?
03/11/2025, 19:28
t.me/pseudolabeling/241
Waagh закончен, получилось выбиться только в ~65 место. 🥉
Финальные результаты будут через две недели, когда боты в симуляции сойдутся и рейтинг устаканится.
Даже видимо в глобальном рейтинге каггла упаду немного, но не сильно страшно.

Разборы лучших решений, как только они появятся приведу. В это соревновании было очень много разных приколов и оно было сильно более вознаграждающим, чем среднее обычно. Думаю буду в других симуляциях тоже участвовать, потому что пространство для маневра бешеное, а конкуренция будто бы даже ниже
Верхнеуровнево можно наше решение тут оценить:

https://www.kaggle.com/competitions/lux-ai-season-3/discussion/567567

Вместе с разборами топовых решений приплету еще свои идеи, если их никто не реализовал.
03/11/2025, 17:55
t.me/pseudolabeling/240
Хочу сильно стукаться и объявляю Waaagh в секторе Lux AI Season 3
03/05/2025, 16:32
t.me/pseudolabeling/239
угу, понял
03/05/2025, 13:59
t.me/pseudolabeling/238
В соревнова LUX 3 забавная ситуация:
1. Осталось 12 дней до дедлайна
2. 5 дней до конца соревы
3. До сих пор в ноутбуках нет работающего решения на РЛ, только хороший бейзлайн бот на эмпириках. У меня вот RL тоже не заводится, особенно self-play
4. Из топовых команд кажется у топ 10-2 только получилось завести разного уровня рльные решения
5. Простая докрутка публичного бота на эмпириках дает бронзу

А у вас как дела?
02/27/2025, 03:31
t.me/pseudolabeling/237
Вот времена
В го дженерики
В питоне можно выключить GIL
Скоро в плюсах появится лайфтаймы
02/18/2025, 16:21
t.me/pseudolabeling/236
Бета-тест — это когда ты не уверен в своём глобальном апдейте и выкатываешь его на ограниченное число пользователей, чтобы собрать обратную связь.

Альфа-тест — это когда ты настолько не уверен в своём апдейте, что сначала платишь людям за то, чтобы они его попробовали.

Сигма-тест — это когда ты сразу выкатываешь и сразу наблюдаешь за падающими графиками.
02/12/2025, 14:36
t.me/pseudolabeling/235
#intro

Welcome to Wonderland Тати.

Буду писать о науке, машинном обучении, искусстве, книгах, психологии, философии, карьере, фейлах, лайфхаках, Ирландии и мире.

И конечно же, кулстори из жизни, которые все так любят.
02/11/2025, 16:38
t.me/pseudolabeling/234
Тати оказывается тоже завела канал. Это человек, с которым я нафармил свою первую медальку в 2019 году за компетишны и стафф инженер Linkedin. Когда мы решали Lyft Тати созванивалась с нами из декрета и решала кагл, пока ребенок спит.
02/11/2025, 16:38
t.me/pseudolabeling/233
Забыл вам сказать подписчики. Видимо это сейчас важно. Все это время мне было 17 лет

Админу LDT 16, он у нас в школе на воротах на футбике стоит и шитпостит
Валера Бабушкин наш физрук
02/07/2025, 23:12
t.me/pseudolabeling/232
Кстати, всем любителям дешевого дофамина вчера раздали еще и бейджи за Санту. Причем за всех сант- одинаковый бейдж
02/07/2025, 16:59
t.me/pseudolabeling/231
Наше комьюнити хостит сореву ☝️. Я пока топ 1 на лб с первого же сабмита.
Главный приз- соавторство в публикации в A* журнале по комбинаторике

Go get me
02/06/2025, 18:02
t.me/pseudolabeling/230
Неожиданное. Запустил сореву на каггле. https://www.kaggle.com/competitions/lrx-oeis-a-186783-brainstorm-math-conjecture/overview

Хорошее решение ML/RL-ем имеет важное прикладное значение и можно стать соавтором статьи. Алгоритмические не так интересны, потому что плохо обобщаются.
02/06/2025, 18:01
t.me/pseudolabeling/229
Сейчас проходит еще одна сорева NIPS.
Это RL-соревнование, так что участники соревнуются напрямую против друг друга и можно посмотреть реплеи своего бота.

Второй на лб кагглер пишет ГГ прямо на доске если выигрывает или проигрывает 3-0 (потому что раундов 5 и он уже победил/проиграл)
02/05/2025, 17:15
t.me/pseudolabeling/228
Влетел на 390 место и 16,616 рейтинга. ВКУСНО 🎲
02/04/2025, 00:28
t.me/pseudolabeling/227
Про то, почему не работал бимсерч и чем санта 24 отличается от санты 23

В прошлом (2023) «Санте» требовалось собрать многомерный кубик Рубика в упорядоченное положение кратчайшим путём. Это классическая задача поиска кратчайшего пути: при наличии подходящего алгоритма и отсутствии отрицательных циклов её можно решить в полиномиальное время. Даже если точное решение найти затруднительно, задачу можно разбить на подзадачи и последовательно ограничивать поиск, отсекая пути, которые уже заведомо не могут быть короче найденного решения, а потом искать оптимизации между промежуточными пунктами с помощью бимсерча.

В «Санте» 2024 года мы имеем более сложную задачу: нужно переставить заданные слова в таком порядке, чтобы минимизировать перплексию для модели Gemma-2-9b. Иначе говоря, это задача коммивояжёра (TSP) (а еще лучше задача о Питербуржских мостах): надо обойти «города» (здесь — слова) и вернуться к начальному условию или достичь некоторого состояния, при этом пропускать слова нельзя. TSP относится к классу NP-трудных задач, и при более чем 66 «городах» (в нашем случае слов около 100) её невозможно точно решить перебором за разумное время: потребуются миллиарды лет вычислений даже на гипотетическом сверхмощном компьютере.

Почему beam search (и аналогичные алгоритмы поиска кратчайшего пути) в данном случае не помогают? Основная причина в том, что в задаче коммивояжёра, по сути, могут существовать «отрицательные циклы» с точки зрения нашей целевой функции (перплексии). В классическом поиске кратчайшего пути алгоритмы гарантированно работают только при условии, что нет отрицательных циклов, т.е. нет подпути, который имеет отрицательную длину. D 2024 же нам специально нужно найти такую последовательность (цикл посещения всех «городов»), при которой итоговая «стоимость» (перплексия) окажется минимальной. Метод beam search, который хорош в задачах без отрицательных циклов, не способен эффективно отсеивать невыгодные ветви в условиях просто потому, что не обладает достаточной информацией, где каждое добавление нового «города» может кардинально изменить оценку перплексии.

Поскольку слова пропускать нельзя, обойти «сложные» участки не получится. Задача действительно носит характер TSP, а он, не допускает эффективных точных решений при большом количестве вершин. Поэтому для «Санты» 2024 года оправдано применение эвристических или стохастических методов (например, отжига или других метаэвристик), которые не гарантируют точное решение, но на практике позволяют получить приемлемый результат за разумное время.

TLDR: бимсерч не сможет развернуться, потому что задизайнен для отсутствия негативных циклов. Это не мешает ему хорошие решения искать в ЛЛМках, потому что там набор слов не ограничен и можно их использовать сколько угодно раз. Кстати, я тут понял, что задача этого года- это задача поиска гамильтонова пути, но они в одном классе эквивалентности.
02/03/2025, 17:58
t.me/pseudolabeling/226
🎅 Santa 2024 Top-1 🎅

Описание задачи
Участникам предлагалось решить достаточно простую задачу:
Переставить фиксированный набор слов так, чтобы итоговая последовательность минимизировала перплексию модели Gemma-2-9b.
При этом можно было использовать только перестановки заданных слов.

Общая картина
Практически все участники использовали те или иные алгоритмы отжига (simulated annealing) или их модификации, поэтому публичные решения были довольно похожи. Даже чел с 2 места просто использовал SA. В соревновании отсутствовал приватный LB — использовался только публичный, а значит и шейкапа не было.

Победители обнаружили глобальный оптимум ещё два месяца назад и спокойно чилили до последней ночи соревнования. Почему глобальный оптимум? Потому что все команды из золота финишировали с одним и тем же скором. Слишком большое совпадение. Как принято, были и китайские анонимные гении, которые две недели назад зарегали аккаунт и влетели в золото в последний день с 10 сабмитов. Но вернемся к победителям:

Примочки
Дистилировали Gemma-2-9b
Так как домен ограничен сотней слов, они смогли сжать модель до 1/5000 от оригинала. Я тоже пытался дистиллировать, но не смог добиться стабильного результата. Теперь выпрашиваю на форуме дать посдказок и правильных ответов, а то месяц мучал этот подход. Мб все же надо решать nlp соревы иногда.

Основной алгоритм победы — Iterated Local Search (ILS):
Принцип опишем так:

1. Инициализация:
Выбираем стартовое решение — исходная последовательность слов. Положим, лучший паблик из открытых.

2. Пертурбация:
Из текущего решения выбираем блок из нескольких подряд идущих слов, которые затем случайным образом переставляем. Это позволяет "оттолкнуться" от текущего состояния и исследовать новые варианты.

3. Локальный поиск:
После пертурбации в стиле брутфорса пытаемся переставить каждое слово. Полученный результат фиксируем, а его оценка с не большим марджином (10%), запоминаем, чтобы отсекать неперспективные варианты.

4. Поиск в глубину:
Затем перебираем все перестановки с глубиной N+1 (переставляем два слова, потом три слова всеми возможными вариантами). Если ни одно из новых решений не оказывается лучше установленного порога, текущий локальный оптимум считается финальным, и алгоритм возвращается к пертрубации.

Все, готово. Ставим сосиски на гпу и ждем, когда они превратятся в пепел.

Фанфэктс:
Один из авторов активно участвовал в соревнованиях по эмпирическому поиску на протяжении последнего года просто потому, что ему еще прошлный санта сильно зашел.

АХ НУ ДА, БИМ СЕРЧ НЕ РАБОТАЛ, ФИГНЯ БИМ СЕРЧ ВАШ. Он для совсем других целей. Ставьте 🧠️️️️️️ если хотите, чтобы я объяснил
02/01/2025, 16:07
t.me/pseudolabeling/225
Заняли 23 место в Santa 2024 и нафармили серебро 🥈. К сожалению в этот без прогресса к КГМ.
После понижения рейтинга (случается после конца каждого соревнования) у меня осталось 13,971. По моим расчетам должен допрыгнуть до 15к и с 470 места влететь в <400, чем, вероятно, обновлю свой лучший результат в рейтинге снова.
02/01/2025, 16:06
t.me/pseudolabeling/224
Закончился Santa 2024. Взяли 23 место
Задача была простая и ясная:
Переставить фиксированный набор слов так, чтобы они минимизировали перплексию для Gemma-2-9b. Можно использовать только перестановки заданных слов.

Примерно все использовали так или иначе алгоритмы отжига, так что все решения похожие. Из примечательного- не было приватного лб, только публичный. Обошлись совершенно без шейкапа.

Лучшая команда нашла глобальный оптимум еще два месяца назад и спокойно себе чилила на пьедестале до самой вчерашней ночи.

Сначала дополнительные примочки:
Дистилировали Gemma-2-9b для ограниченного домена до 1/5000 от оригинального размера. Я тоже пытался, но у меня не завелось. Выпрашиваю у победителей гайд по тому, как правильно было дистилировать, а то жалко месяц попыток свой.

Основная идея решения:
02/01/2025, 15:33
t.me/pseudolabeling/223
Системы рейтинга слишком аддиктивны. Летом наконец-то смог апмнуть ммр выше, чем в свои 16 лет и забил. Теперь сижу и считаю, сколько рейтинга примерно получу по завершению следующей соревы и в какой ранг войду.
На каггле все же легче в тысячники зайти, чем в доте
И самое главное- иммортал драфт доступен почти в самом начале, никаких переливов
01/28/2025, 20:35
t.me/pseudolabeling/222
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria