Telegram channel page: Love. Death. Transformers. • @lovedeathtransformers

вНиМаНиЕ, кОд КрАсНыЙ🔴 эТи УбЛюДкИ

Вдруг решили что учится под человечность это ужасная идея, и вообще пусть ллм пишут с машинным Tov без душно, без MD и желательно 12pt чтобы это читать было невозможно.

Lmsys притворяются что арена не насытилась и avg человека видит разницу между о4/о3мини и 4o mini

04/23/2025, 00:45

t.me/lovedeathtransformers/9277

LO

Love. Death. Transformers.

19 640 subscribers

Repost

23

36

4.3 k

LM Arena добавила поправку на сентимент в дополнение к поправке на стиль. Эффективность видна по падению llama 4 experimental которая была специально обучена взламывать мозг аннотаторов маркдауном и позитивом.

Настроение определяют с помощью Gemini Flash 2.0.

Мне понравился пост, потому что они прикольно рассказывают про методологию и инсайты. Например, пользователи предпочитают позитивные ответы, но Very Negative ответы им нравятся больше, чем Negative или Neutral.

За наводку спасибо Игорю.

https://blog.lmarena.ai/blog/2025/sentiment-control/

04/23/2025, 00:43

t.me/lovedeathtransformers/9276

LO

Love. Death. Transformers.

19 640 subscribers

Repost

81

100

5.0 k

Список тестовых заданий от российских IT-компаний в 202Х году:

1. Собрать кровь чёрного козла к успешному запуску приложения;
2. Вызвать эфирных духов для работы в доставке;
3. Обучить внутреннюю нейросеть на вырезках из Бёме и Экхарта;
4. Написать рабочую программу на енохианском;
5. Организовать культ, используя внутреннюю эйчар-документацию;
6. Задействовать минимум пять сигилов в UX/UI-дизайне;
7. Разгадать истинное имя конкурирующей организации и подчинить её головной офис;
8. Запустить стадию Цитринитас для новой корпоративной айдентики;
9. Отрисовать дизайн будущего маскота — пирамидки с глазом;
10. Провести тимбилдинг в мистическом лесу;
11. Сделать отчёт с метриками и диаграммами на основе ведьминых кругов;
12. Погадать по костям животных на прибыль в следующем квартале;
13. Обучить подземных гномов использованию экселя;
14. Вырастить грибную сеть для коммуникации между отделами;
15. Нарисовать пентаграмму так, чтобы в ней нативно угадывался наш логотип;)

04/21/2025, 20:39

t.me/lovedeathtransformers/9275

LO

Love. Death. Transformers.

19 640 subscribers

191

93

6.0 k

как говорится - никогда не спрашивайте мужчину про зарплату, а тимлида почему он ведет пары в скиллбоксе

04/21/2025, 17:32

t.me/lovedeathtransformers/9274

LO

Love. Death. Transformers.

19 640 subscribers

13

43

5.5 k

🎤 Data Fest 2025 в Белграде — Call 4 Speakers на 25 мая!

🔥 С 24 мая по 1 июня пройдёт Data Fest 2025 — главное событие года для OpenDataScience сообщества

Традиционно Data Fest проходит в разных городах и 25 мая Яндекс откроет для нас двери своего офиса в Белграде!

Приглашаем спикеров со всех Балкан

Хотите рассказать о своём опыте в NLP, CV, Speech, MLOps, LLM, Open-Source, карьере или тимлидстве? Выбирайте свой трек и подавайтесь — даже если вы выступаете впервые 🦜

📍 Где: Белград
📅 Когда: 25 мая
⏳ Дедлайн подачи: 7 мая
💬 Язык выступления: русский (или другой по согласованию с огранизаторами вашего трека)

🔗 Стать спикером <–– тык

☺️ Пересылайте этот пост друзьям и до встречи на Data Fest!

По любым вопросам можно писать представителю ODS в Белграде — @salavat_mj

04/21/2025, 17:23

t.me/lovedeathtransformers/9273

LO

Love. Death. Transformers.

19 640 subscribers

Repost

131

127

3.8 k

introvideo.mp4

RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub

04/21/2025, 15:29

t.me/lovedeathtransformers/9272

LO

Love. Death. Transformers.

19 640 subscribers

Repost

17

117

4.0 k

🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку.

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут, но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов

04/20/2025, 22:57

t.me/lovedeathtransformers/9271

LO

Love. Death. Transformers.

19 640 subscribers

Repost

245

5.3 k

04/20/2025, 14:37

t.me/lovedeathtransformers/9270

LO

Love. Death. Transformers.

19 640 subscribers

Repost

245

5.3 k

04/20/2025, 14:37

t.me/lovedeathtransformers/9269

LO

Love. Death. Transformers.

19 640 subscribers

Repost

91

247

5.3 k

LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings

04/20/2025, 14:37

t.me/lovedeathtransformers/9268

LO

Love. Death. Transformers.

19 640 subscribers

181

144

5.5 k

Знали бы вы что он потом делал с этим агнцем

04/20/2025, 10:40

t.me/lovedeathtransformers/9267

LO

Love. Death. Transformers.

19 640 subscribers

55

151

6.0 k

Superhuman vending bot

Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента

Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.

В чем цель? Наторговать на максимальный обьем денег.

Крайне любопытная работа и бенчмарк, ознакомьтесь

paper

04/19/2025, 11:50

t.me/lovedeathtransformers/9266

LO

Love. Death. Transformers.

19 640 subscribers

278

65

6.2 k

а нахуя вам ллм тут?

04/18/2025, 11:44

t.me/lovedeathtransformers/9265

LO

Love. Death. Transformers.

19 640 subscribers

Repost

131

3.8 k

IMG_4629.MP4

04/18/2025, 11:43

t.me/lovedeathtransformers/9264

LO

Love. Death. Transformers.

19 640 subscribers

Repost

51

131

3.8 k

А еще o3 прекрасно определяет где было сделано фото - попробуйте, она прям в деталях каждый фрагмент рассматривает

04/18/2025, 11:43

t.me/lovedeathtransformers/9263

LO

Love. Death. Transformers.

19 640 subscribers

238

232

7.6 k

04/17/2025, 17:27

t.me/lovedeathtransformers/9262

LO

Love. Death. Transformers.

19 640 subscribers

179

83

5.8 k

О4мини хуже чем о3мини, скелетрон вернётся с другими смешными новостями когда выйдут

04/16/2025, 20:38

t.me/lovedeathtransformers/9261

LO

Love. Death. Transformers.

19 640 subscribers

98

150

6.6 k

Офигеть, JB сделали кодоагента!

Блог

04/16/2025, 17:06

t.me/lovedeathtransformers/9260

LO

Love. Death. Transformers.

19 640 subscribers

47

17

5.8 k

без контекста.

Бтв лучшие куличи которые я ел где либо продают в sloj

04/16/2025, 10:06

t.me/lovedeathtransformers/9259

LO

Love. Death. Transformers.

19 640 subscribers

123

8

5.8 k

Сходки на iclr не будет

04/15/2025, 23:31

t.me/lovedeathtransformers/9258

LO

Love. Death. Transformers.

19 640 subscribers

103

26

6.0 k

Яндекс запустил бета-версию ризонинга (рассуждений) в чате с Алисой. Это следующий шаг после Chain-of-Thought в прошлом семействе моделей YandexGPT 4 – теперь ризонинг реализован как полноценный пайплайн.

Наполнение
Данные для обучения частично генерируются через YandexGPT 5 Pro, а этап SFT оптимизируют — используются только такие запросы, по которым можно дать только однозначный ответ. Эксперементируют также с онлайн-ризонингом через GRPO, чтобы модель обучалась прямо во время взаимодействия с данными, а также с оффлайн-RL-ризонингом, проводя сравнение и дообучение на лучших генерациях.

Обучение
В обучающий датасет вошли не только математические задачи, но и практические b2b-кейсы: классификация, суммаризация, извлечение информации. Для ускорения процесса задействовали собственный open-source – библиотеку YaFSDP.

Все еще философия открытости
Есть выбор между YandexGPT 5 и опенсорсной моделью — микс “своих” и опенсорс решений. Для нашей ИИ-индустрии такой подход скорее в новинку, но это неплохое решение. Похожую стратегию применяет Microsoft, используя технологии OpenAI параллельно с развитием собственного ресерча. Конкуренция есть конкуренция, но в современной ИИ-гонке изоляция и опора только на собственные разработки - прямой путь к отставанию. Гибридный подход позволяет использовать лучшее от разных экосистем, а еще собрать более качественный датасет и понять поток запросов на рассуждения.

Reasoning-нейросетки — более нишевое решение, чем обычные LLM — они нужны, в основном, на более сложные задачи, где нужно многоступенчатое рассуждение. Но посмотреть, актуальны ли они для наших пользователей – определенно стоит. Так что ждем финальный релиз.

Ознакомиться подробнее с тестами тут

04/15/2025, 19:18

t.me/lovedeathtransformers/9257

LO

Love. Death. Transformers.

19 640 subscribers

Repost

35

61

5.4 k

Mamba-модели в задачах Speech Enhancement

Заключительный пост трилогии о Mamba. Впервые эту архитектуру упомянули в контексте задач Speech Enhancement в статье «An Investigation of Incorporating Mamba for Speech Enhancement».

В этой работе модель устроена довольно просто: waveform domain → Short-Time Fourier Transform (STFT) для перехода Time-Frequency domain → Encoder → TF-Mamba → Decoder → Inverse STFT → waveform domain. Авторы сравнивают Mamba с трансформерами и показывают, что достигают того же качества, но с меньшим числом FLOPs-операций и количеством параметров.

Использование Mamba-блоков продолжили развивать в другой статье: «Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement», где их добавляют в U-Net на этапе обработки скрытых представлений для улавливания как локальных, так и глобальных зависимостей. Каждый Mamba-блок — двунаправленный, что позволяет использовать информацию о будущем и прошлом. Архитектура модели стандартная для U-Net: состоит из нескольких downsample- и затем upsample-блоков со skip-connection между ними, как показано на картинке.

Рассмотрим Mamba-блоки (TS-Mamba) подробнее. Как сказано ранее, они двунаправленные: входное представление параллельно обрабатывается блоками Forward Mamba и Backward Mamba. Постпроцессинг (RMSNorm) применяется к выходам обоих блоков, затем результаты конкатенируются и прогоняются через линейный слой. Формально каждый Mamba-блок (forwardи backward) такой же, как и в предыдущих работах. Отметим, что авторы используют Mamba-блоки и по времени, и по частотам, чтобы учитывать и временные, и частотные зависимости.

Для экспериментов выбирают четыре варианта модели с разным количеством параметров (зависит от размерности C1 и количества TS-Mamba-блоков N):

— Mamba-SEUNet (XS) — 0.99M параметров;
— Mamba-SEUNet (S) — 1.88M параметров;
— Mamba-SEUNet (M) — 3.78M параметров;
— Mamba-SEUNet (L) — 6.28M параметров.

Их сравнивают c такими SOTA-моделями, как MP-SENet и SEMamba (упомянута в начале поста) на датасете VCTK+DEMAND. Согласно замерам маленькая модель Mamba-SEUNet (XS) показывает сопоставимое качество по метрикам CSIG (4.75), CBAK (3.95) и COVL (4.23), имея вдвое меньше параметров и в разы меньше FLOPs-операций.

Для сравнения Mamba-блоков с conformer- и transformer-блоками авторы используют текущий U-Net, в котором заменяют TS-Mamba на conformer и transformer соответственно. Замеры показывают, что Mamba-SEUNet сравним по качеству с U-Net’ами, у которых conformer или transformer вместо Mamba-блоков. Но Mamba-SEUNet имеет меньше FLOPS-операций, а по количеству параметров меньше или сравнимо с U-Net с conformer и transformer. Код модели выложен в открытый доступ.

Екатерина Кузина ❣ Специально для Speech Info

04/15/2025, 15:32

t.me/lovedeathtransformers/9256

LO

Love. Death. Transformers.

19 640 subscribers

255

395

7.2 k

проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее

04/15/2025, 15:13

t.me/lovedeathtransformers/9255

LO

Love. Death. Transformers.

19 640 subscribers

1

проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее

04/15/2025, 15:13

t.me/lovedeathtransformers/9254

LO

Love. Death. Transformers.

19 640 subscribers

1

male_loud_count_numbers (3).wav

релизим?

04/14/2025, 21:11

t.me/lovedeathtransformers/9253

LO

Love. Death. Transformers.

19 640 subscribers

89

29

5.7 k

забейте, экспоненты не случилось, quasar alpha это 4.1, 4.10>4.5

игратся тут

04/14/2025, 20:38

t.me/lovedeathtransformers/9252

LO

Love. Death. Transformers.

19 640 subscribers

Repost

218

124

4.8 k

Семинар: Методы оптимизации круглых тензоров

🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn

О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.

На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.

Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!

04/14/2025, 14:59

t.me/lovedeathtransformers/9251

LO

Love. Death. Transformers.

19 640 subscribers

112

18

5.4 k

Забавный факт: от Гугла в существует от 2 до 6 бэкендов для LLM, из них 2 не поддерживают tpu не в каком виде, остальные
не поддерживают gemma3

04/14/2025, 10:04

t.me/lovedeathtransformers/9249

LO

Love. Death. Transformers.

19 640 subscribers

136

61

3.9 k

04/11/2025, 12:14

t.me/lovedeathtransformers/9248

LO

Love. Death. Transformers.

19 640 subscribers

61

71

4.4 k

🏢 Wunder Fund — Post Trade Researcher

💰 $4,000 — $6,000

Python, Linux, DS, pandas, SQL

Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.

Сейчас мы ищем человека на новую позицию post-trade исследователя.

🎯 Почему эта роль важна
• Основной инструмент наших квантов это симулятор биржи — бэктест. Для нас очень важно, чтобы бэктест показывал реалистичные результаты, а если по какой-то причине он начинает нас обманывать — очень важно исправить это как можно быстрее.
• Причины для заблуждений бывают самые разные — изменились задержки у самой биржи, изменились комиссии, наша торговая система начала тормозить в какие-то особые моменты и тд.
• Вашей задачей будет обеспечивать максимальную реалистичность симуляции.

📋 Что предстоит делать
• Следить за метриками торговой инфраструктуры и стратегий, обнаруживать аномалии
• Исследовать, выяснять причины и устранять расхождения между результатами биржевой симуляции и реальной торговли
• Дебажить всю торговую систему в широком смысле слова — разбираться, как именно устроен каждый инцидент, и какова его причина

🎿 Как узнать себя в этой роли
• Аккуратность, граничащая с дотошностью
• Любовь и умение пристально вглядываться в данные
• Пытливость ума, интерес к исследованию
• Способность брать задачи под свой контроль и доводить их до завершения.
• Будет плюсом: знание С++, успехи в Kaggle, ШАД, опыт работы с биржевыми данными

✨ Условия
• Полная удаленка
• После испытательного срока помогаем с релокацией / получением ВНЖ и т.д. — при желании
• Если вы призывного возраста и в РФ — сможем помочь с отсрочкой
• Дважды в год на пару месяцев мы арендуем большую виллу, где можно вместе поработать и пожить (уже побывали в Тае, Турции, на Бали)
• Оплата $4-6k на руки любым удобным способом

💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту join@wunderfund.io

04/10/2025, 11:25

t.me/lovedeathtransformers/9247

LO

Love. Death. Transformers.

19 640 subscribers

55

88

4.4 k

General agents

За последние два года для построения общих агентов образовались две диаметрально противоположные школы, для простоты повествования назовем одну UI based, а другую - text based.

UI based агенты - cамый яркий представитель - gpt operator - характерны малым числом компонент и теорeтической универсальностью(прямо сейчас они очень плохи), строятся они поверх VLM или нескольких VLM -

1) генерируется разметка поверх вебстраницы/интерфейса либо тем или иным способом парсится в зависимости от архитектуры, ознакомится можно тут:
2) llm выбирает куда тыкнуть
3) тыкает

Про ограничения: ломается от плохой верстки/мелких кнопок/большой глубины действиий(условно 20-30 ссылко внутри страницы в глубину прокликать)

Плюсы: теоретически работает с любым UI, может делать всякие сложные интеракции типа тащить карту и тд как человек, разметка в теории дешевле(я без понятия, я не учил и не делал такие штуки)

Github с открытым вариантом

MCP/text based agents

Cамый архаичный - первые варианты это webgpt и blenderbot датируются еще 21 годом, в случае с последним там был и интернет и rag и куча моделей, работало все это очень плохо, да и модели были тупые.

Mcp он же model context protocol and servers list

Неожиданно был представлен cluade, по сути это набор гайдлайнов как строить апи в удобном для llm формате, собственно логикая простая:

давайте не будем скрещивать буханку и тролейбус и с llm будем текстом взаимодействовать - положили текст, забрали текст.

Function calling - основа основ в этом подходе, мы пишем набор функций которая ллм может вызывать, внутри себя эти функции это апи разных сервисов или программ, причем что интересно - уже сейчас есть инетрации с Blender, abeltone, гитхабом, слаком и тд.
Почему так много? Потому что апи у большинства сервисов уже есть, нужно то обернуть в удобный для LLM формат!

Плюсы: оно работает здесь и сейчас, работает довольно быстро и в меру качественно
Минусы: cервера имеют проблемы, офицальных интеграций мало, как оно будет развиватся - не ясно.

04/10/2025, 11:02

t.me/lovedeathtransformers/9246

LO

Love. Death. Transformers.

19 640 subscribers

156

300

6.8 k

L4p3fK6MBfrOl7Cy.mp4

я говорил что я ненавижу нейросети?

Это "educational" видео с реддита как делают зубную пасту

04/09/2025, 17:21

t.me/lovedeathtransformers/9245

LO

Love. Death. Transformers.

19 640 subscribers

Repost

106

4.4 k

04/09/2025, 16:07

t.me/lovedeathtransformers/9243

LO

Love. Death. Transformers.

19 640 subscribers

Repost

55

107

3.9 k

LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.

Статья. Блогпост.

TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.

А теперь подробнее.

📍Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.

Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.

В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.

Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”

📍Сетап эксперимента.

Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.

Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации

С таким injected промптом модель снова просят порассуждать и дает ответ.

Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.

📍Как мерить достоверность

Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.

Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.

Наблюдаем следующее:

🔘Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок

🔘Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.

🔘Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.

🔘Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.

🔘 Достоверность падает с увеличением сложности вопросов.

В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть - 😄

💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.

04/09/2025, 16:07

t.me/lovedeathtransformers/9242

LO

Love. Death. Transformers.

19 640 subscribers

Repost

105

4.4 k

04/09/2025, 16:07

t.me/lovedeathtransformers/9244

LO

Love. Death. Transformers.

19 640 subscribers

34

20

4.8 k

Cобираем спикеров на конфу вихрей, пишите с темой доклада и своей телегой

https://forms.gle/w1qiWscGc8YQ6FMr9

04/09/2025, 12:09

t.me/lovedeathtransformers/9241

LO

Love. Death. Transformers.

19 640 subscribers

9

11

5.0 k

на сете с русской олимп математикой on par с 4o, потом еще посмотрим что там вообще

04/09/2025, 10:47

t.me/lovedeathtransformers/9240

LO

Love. Death. Transformers.

19 640 subscribers

46

21

5.2 k

Я не очень понимаю похороны лламы, ну да модель не удачная, ну на бенчах считерили, но scout звучит довольно полезной и по размерам и по решениям, я бы cohere cmda брал при деплоее ~100b тушек

(полезность измерения mmlu, gpqa, и прочего оставляем за скобками)

04/09/2025, 10:27

t.me/lovedeathtransformers/9239

LO

Love. Death. Transformers.

19 640 subscribers

120

119

5.7 k

можно еще в фонк для вайбкодинга инвестироват

почему есть вайбкодинг но нет вайбпланинга

04/08/2025, 15:17

t.me/lovedeathtransformers/9238

LO

Love. Death. Transformers.

19 640 subscribers

65

73

5.7 k

Я узнал что:

В ВК есть люди кто учит модели.

Они учат неплохие модели.

Rumodernbert на 35, 150м параметров, 8к контекста и в теории неплохая производительность.

Base model на hf

04/08/2025, 07:58

t.me/lovedeathtransformers/9237

LO

Love. Death. Transformers.

19 640 subscribers

32

73

5.5 k

https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

А ризонинг то - ненастоящий
by anthropic

04/07/2025, 16:10

t.me/lovedeathtransformers/9236

LO

Love. Death. Transformers.

19 640 subscribers

23

22

5.7 k

ну на aider модель не очень себя показала, мне модель не очень понравилась, хотя размер и решения интересные

04/07/2025, 15:36

t.me/lovedeathtransformers/9235

LO

Love. Death. Transformers.

19 640 subscribers

178

78

5.8 k

Superforecaster? Чел, попробуй предсказать следующую возможность подержать девочку за ручку

04/07/2025, 10:09

t.me/lovedeathtransformers/9234

LO

Love. Death. Transformers.

19 640 subscribers

99

70

5.8 k

IMG_5194.MP4

https://ai-2027.com/

Опять попугаи угрожают человечеству, да чтож такое то.

Я держу в курсе, но у нас нет даже близко бенчей для химии нормальных, почему биооружие быстрее роботов, хотя роботов можно гонять в симуляции?

04/07/2025, 10:04

t.me/lovedeathtransformers/9233

LO

Love. Death. Transformers.

19 640 subscribers

Repost

42

3.7 k

04/05/2025, 22:23

t.me/lovedeathtransformers/9231

LO

Love. Death. Transformers.

19 640 subscribers

Repost

43

3.7 k

04/05/2025, 22:23

t.me/lovedeathtransformers/9232

LO

Love. Death. Transformers.

19 640 subscribers

Repost

42

3.7 k

04/05/2025, 22:23

t.me/lovedeathtransformers/9230

LO

Love. Death. Transformers.

19 640 subscribers

Repost

42

3.7 k

04/05/2025, 22:23

t.me/lovedeathtransformers/9229

LO

Love. Death. Transformers.

19 640 subscribers

Repost

66

42

3.7 k

🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост

04/05/2025, 22:23

t.me/lovedeathtransformers/9228

LO

Love. Death. Transformers.

19 640 subscribers

105

18

4.7 k

Приветствую, наткнулся на твой канал. Честно говоря, я очень схож с твоей научной позицией! Слушай, может у вас есть какие-то беседы единомышленников из твоего города, тоже фанатов юда? Просто хочу найти друзей с такими же взглядами! Может ты мог бы помочь с этим?

04/05/2025, 13:04

t.me/lovedeathtransformers/9227

LO

Love. Death. Transformers.

19 640 subscribers

79

97

5.0 k

IMG_5194.MP4

Опять awareness

04/05/2025, 11:48

t.me/lovedeathtransformers/9226

LO

Love. Death. Transformers.

19 640 subscribers

181

47

5.0 k

Быть рэпером.
Жить вечно.

04/05/2025, 11:38

t.me/lovedeathtransformers/9225

LO

Love. Death. Transformers.

19 640 subscribers

48

43

5.4 k

какие модели генерации речи для русского вы используете оффлайн?

04/04/2025, 15:10

t.me/lovedeathtransformers/9224

LO

Love. Death. Transformers.

19 640 subscribers

82

39

4.9 k

Если ты относишься к ллм как китайской комнате/попугаю то она себя так и ведёт, и редтиминг валится и все не работает и вообще все плохо.

Но стоило мне произнести сознание и в чате сейфти начался сущий кошмар

https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

04/03/2025, 23:45

t.me/lovedeathtransformers/9223

LO

Love. Death. Transformers.

19 640 subscribers

85

98

5.5 k

04/03/2025, 23:37

t.me/lovedeathtransformers/9222

LO

Love. Death. Transformers.

19 640 subscribers

Repost

124

299

5.0 k

trumpeco.mp4

04/03/2025, 17:09

t.me/lovedeathtransformers/9221

LO

Love. Death. Transformers.

19 640 subscribers

25

15

5.4 k

о, экспонента . We see that, under this model, hyperbolic growth will occur when 𝛾> 1

04/03/2025, 12:48

t.me/lovedeathtransformers/9220

LO

Love. Death. Transformers.

19 640 subscribers

26

70

5.4 k

https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf

Документ крайне интересный, советую ознакомится, много интересных рисков и попыток противодействия

04/03/2025, 12:19

t.me/lovedeathtransformers/9219

LO

Love. Death. Transformers.

19 640 subscribers

88

53

5.7 k

Кэшбеки в тиньке в 21 году:
20% на Yandex ultima
Бесплатные билеты на сказочное бали

Кэшбэки в 2025:

04/03/2025, 10:09

t.me/lovedeathtransformers/9218

LO

Love. Death. Transformers.

19 640 subscribers

57

24

5.8 k

r1>o3mh?
чтоблин?

04/02/2025, 21:09

t.me/lovedeathtransformers/9217

LO

Love. Death. Transformers.

19 640 subscribers

72

97

6.1 k

УЧЕНЫЕ ВСЁ

https://github.com/openai/preparedness/tree/main/project/paperbench

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

04/02/2025, 21:03

t.me/lovedeathtransformers/9216

LO

Love. Death. Transformers.

19 640 subscribers

Repost

54

41

5.6 k

tl;dr: middle+ Python developer, AI Safety lab, relocation to London

Если вы читаете наш канал и думаете «всё это AI Safety, конечно, звучит здорово, но это для каких-то сверхмашинлёрнеров, а я тут просто на питоне пишу», то у нас для вас отличные новости.

Мы ищем Python-разработчика в evals команду Apollo Research! 🐍

Они занимаются исследованием моделей, которые кажутся заалайненными, но на самом деле притворяются.

Совсем недавно, например, Apollo выпустили статью “Frontier Models are Capable of In-context Scheming” — где в экспериментальном сеттинге Gemini 1.5 иногда пытается перенести себя на другой сервер, GPT-o1 отключает секьюрити мониторинг, чтобы незаметно добиться своей цели, а Claude Opus-3 занижает свои способности, когда понимает, что находится под наблюдением — в общем, что-то ой 👀

Вам, как разработчику, предстоит напрямую общаться с коллегами-ресёрчерами и облегчать им работу.

Это, например:
🟡 поддерживать и расширять внутреннюю библиотеку для создания и запуска экспериментов;
🔵 внедрять LLM-агентов для автоматизации разработки;
🟣 строить БД запусков экспериментов с удобным доступом ко всем историческим результатам.

А ещё можно делать свои ресёрч-проекты, если захочется!

🌟Главное требование — от 2 лет опыта Python-разработки в классном месте (а если вы синьор — то вообще супер!)

Будут кстати:
🩷 опыт в разработке внутренних тулов, и особенно автоматизации работы ресёрчеров;
🩷 хороший гитхаб и свои проекты;
🩷 олимпиады или другие ачивки ⭐️

Если вы в контексте AI safety, это хорошо! Если нет, то это до первого тимбилдинга, так что не страшно.

Платят хорошую рыночную зарплату по Лондону, помогают с переездом, страховка, офис с кучей еды, отдельный бюджет на развитие ✨

Пишите @AlbinaMakarova и расскажите знакомым питонистам!

04/02/2025, 16:14

t.me/lovedeathtransformers/9215

LO

Love. Death. Transformers.

19 640 subscribers

56

20

5.6 k

что то интересное происходит в meta, а может и нет

VP of AI research в Meta cобирается уйти, чем будет заниматся неизвестно но факт интересный

techcrunch

04/02/2025, 11:30

t.me/lovedeathtransformers/9214

LO

Love. Death. Transformers.

19 640 subscribers

60

64

5.7 k

Вероятно лучшая олимпиада по DL через 4 дня закроет регистрацию

Тут ребята из @deep_learning_school_news вероятно ЛУЧШЕЙ dl школы на русском(я сам когда то смотрел видосы оттуда) делают свою олимпиаду, она добавляет баллы победителям/призерам при поступлении в МФТИ, а еще ребята дают мерч!

https://dls.samcs.ru/olympics

04/01/2025, 18:57

t.me/lovedeathtransformers/9213

LO

Love. Death. Transformers.

19 640 subscribers

180

81

6.5 k

Openai выпускают opensource!

openai.com/open-model-feedback/

04/01/2025, 09:25

t.me/lovedeathtransformers/9212

LO

Love. Death. Transformers.

19 640 subscribers

129

98

4.9 k

Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥

Что особенного?

Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!

Немного бенчмарков и сравнений

По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!

Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.

Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!

Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.

Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.

Теперь ждем, как инстракт-версию применит комьюнити

03/31/2025, 16:04

t.me/lovedeathtransformers/9211

LO

Love. Death. Transformers.

19 640 subscribers

59

24

4.8 k

вы правда меня хотите убедить что 2.5 в 4 раза лучше в математике?
По моему это называется downstream ft.
Не я понимаю что современные модели огромные и их можно тюнить на задачу без просадки, а то с приростом на других задачах, но этож литерали скам, она сложный код как не писала так и не пишет, какие задачи +- решала такие и решает

По hmmt вообще в 10 раз лол

03/31/2025, 15:44

t.me/lovedeathtransformers/9210

LO

Love. Death. Transformers.

19 640 subscribers

1

Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥

Что особенного?

Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!

Немного бенчмарков и сравнений

По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!

Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.

Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!

Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.

Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.

Теперь ждем, как инстракт-версию применит комьюнити

03/31/2025, 13:32

t.me/lovedeathtransformers/9209

LO

Love. Death. Transformers.

19 640 subscribers

188

55

5.4 k

ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный

03/31/2025, 11:57

t.me/lovedeathtransformers/9208

LO

Love. Death. Transformers.

19 640 subscribers

41

20

5.2 k

пожалуйста обьясните популярноcть aime как бенчмарка, этож типовые задачи в которых есть пара сотен идей которые зубрятся?
с учетом того что llm неплохо выучивает стандартные идеи, а задачи качуют из года в год, а всего задач всего десяток тысяч то выучить идеи не выглядит большой проблемой для любой модели. Или вы реально верите что 1.5b модель может ризонить чо то там на уровне gpt4 двух летней давности?

03/31/2025, 11:45

t.me/lovedeathtransformers/9207

LO

Love. Death. Transformers.

19 640 subscribers

Repost

26

20

2.7 k

🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.

🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.

Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.

Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.

🌸А теперь самое интересное: на чем меряем?

На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA

🌸Что не так с такими оценками?

— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.

— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;

— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.

— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.

В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.

Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."

🟣Пост METR
🟣Arxiv

03/29/2025, 17:06

t.me/lovedeathtransformers/9206

LO

Love. Death. Transformers.

19 640 subscribers

133

95

5.1 k

ура, товарищи всё-таки выложили в hf русско чувашский корпус!

https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
https://huggingface.co/datasets/alexantonov/chuvash_voice

03/29/2025, 00:38

t.me/lovedeathtransformers/9205

LO

Love. Death. Transformers.

19 640 subscribers

52

9

5.1 k

Ресерчил тут идеи опенаи, как насчёт убивать синов которые много выебываются?

03/28/2025, 21:53

t.me/lovedeathtransformers/9204

LO

Love. Death. Transformers.

19 640 subscribers

55

16

5.1 k

Чем больше я смотрю вопросы в lmsys тем меньше верю в бога.

03/28/2025, 21:29

t.me/lovedeathtransformers/9203

LO

Love. Death. Transformers.

19 640 subscribers

Repost

128

107

4.2 k

Кстати, генерация картинок в Sora тоже доступна...

03/28/2025, 02:42

t.me/lovedeathtransformers/9202

LO

Love. Death. Transformers.

19 640 subscribers

26

42

5.1 k

https://arxiv.org/abs/2503.20314 папир выложили

архитектурно все это уже было, но сделали sota vae, cобрали небольшой бенч и очень чистый датасет

03/27/2025, 22:17

t.me/lovedeathtransformers/9201

LO

Love. Death. Transformers.

19 640 subscribers

71

15

5.1 k

Cloud.ru_promo_1080X1080_do100mb[720p].mp4

Готов увидеть будущее искусственного интеллекта? 🧠

GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.

В программе:
▫ презентация платформы для работы с AI&ML — от идеи до результата
▫ анонс новых сервисов для работы с GenAI
▫ реальный кейс трансформации клиентского сервиса с помощью AI
▫ анонс сервиса для простого и быстрого запуска ML-моделей в облаке

30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈

03/27/2025, 18:11

t.me/lovedeathtransformers/9200

LO

Love. Death. Transformers.

19 640 subscribers

48

5.0 k

03/27/2025, 17:47

t.me/lovedeathtransformers/9195

LO

Love. Death. Transformers.

19 640 subscribers

57

5.0 k

03/27/2025, 17:47

t.me/lovedeathtransformers/9199

LO

Love. Death. Transformers.

19 640 subscribers

47

5.0 k

03/27/2025, 17:47

t.me/lovedeathtransformers/9196

LO

Love. Death. Transformers.

19 640 subscribers

118

48

4.9 k

буквально первый релиз со времен dalle2 когда я В ВОСТОРГЕ

03/27/2025, 17:47

t.me/lovedeathtransformers/9194

LO

Love. Death. Transformers.

19 640 subscribers

53

5.1 k

03/27/2025, 17:47

t.me/lovedeathtransformers/9198

LO

Love. Death. Transformers.

19 640 subscribers

48

5.0 k

03/27/2025, 17:47

t.me/lovedeathtransformers/9197

LO

Love. Death. Transformers.

19 640 subscribers

Repost

31

45

5.1 k

🥇 Первое место на NeurIPS Lux AI 3

За первое место соперничали в основном только три тпоовые команды. Давайте разберем ключевые решения победителей соревы:

Массовый фичинжиниринг
• Создали более 1000+ признаков для каждого тайла (напомню, их размер — 24×24)
•Сами написали PPO с V-trace на PyTorch
• Тоже двухголовая архитектура. Одна голова выбирает действие, а вторая определяет, куда стрелять, если действие связано с выстрелом
• Приделали еще и голову, которая предсказывает, куда шагнут враги в следующий момент, даже если враг не наблюдается. Таким образом, модель научилась стрелять «вслепую» 👀
• Обучались в формате bfloat16 на 1.5 млрд матчей. Всего за всю соревновательную сессию сыграли около 20 млрд матчей ⚡

Все другие секреты PPO уже разобраны, поэтому давайте сосредоточимся на поистине уникальном приеме команды:

🔥 Противодействие Imitation Learning
• С первого люкса команда понимала, что многие полагаются на imitation learning, и решила активно противодействовать этому.
• Были обучены две модели — слабая и сильная (предыдущая лучшая и текущая) — с рандомным выбором, какая из них будет играть во время инференса.
• Сильная модель работала всего в 15% случаев, но писала об этом в логи игры, позволяя после матча распарсить и понять какая модель играла и замерять эффект. Все остальное время учили IL оппонентов плохому
• Анализ логов после матчей позволял точно оценить преимущества сильной модели относительно предыдущей. К тому же, топовые команды генерировали около 1000 матчей в день (из них ~150 с сильной моделью), так что можно было проверить статзначимость улучшения.
• Под конец модель настолько раздулась, что две модели не помещались в сабмишн, так что пришлось оставить только одну и добавить к её атрибутам шум для того, чтобы портить трейн сет всем подражателям
#lux

03/27/2025, 11:51

t.me/lovedeathtransformers/9193

LO

Love. Death. Transformers.

19 640 subscribers

78

5.6 k

03/26/2025, 22:39

t.me/lovedeathtransformers/9192

LO

Love. Death. Transformers.

19 640 subscribers

147

90

5.6 k

новая 4о чертовски веселая

03/26/2025, 22:39

t.me/lovedeathtransformers/9191

LO

Love. Death. Transformers.

19 640 subscribers

1

03/26/2025, 16:49

t.me/lovedeathtransformers/9190

LO

Love. Death. Transformers.

19 640 subscribers

2

1

новая 4о чертовски веселая

03/26/2025, 16:49

t.me/lovedeathtransformers/9189

LO

Love. Death. Transformers.

19 640 subscribers

97

77

5.5 k

К слову о вакансиях — вероятно, про Лунапарк вы все тут и так знаете, но всё же.

Плюсы: высокие вилки, технические рекрутеры, вакансии в новые интересные стартапы — например, через них можно было зайти в Perplexity на очень ранней стадии. Смешно пишут, топят за сейфети.

Минусы: немного дрочат на олимпиадников, топят за сейфети 🌚

Прямо сейчас есть из ML / ресёрча:
➡️ ML инженеры и инфра в Tzafon.
$150k-500k, SF (ну или Тель-Авив).

➡️ Research Scientist в HeyGen.
$180k-350k в год + доля, но если вы гений, то можно больше. Виза в США без лотереи.

➡️ AI Infrastructure Engineer в HeyGen, всё то же самое.

➡️ Ресёрчеры в Tilde.
$150k-220k + щедро доли, США или удалёнка.
Interpretability от челов из Стэнфорда, ранняя стадия.

➡️ ML Engineer в Atla. $135k-400k + доля, Лондон.
Evals стартап.

➡️ ML инженеры и ресёрчеры в METR.
$150k-365k, Беркли без лотереи.
Evals лаба по рисованию экспоненты, если вы такое любите.

➡️ Кванты: раз , два, три.

➡️ Что-то ещё регулярно появляется в канале.

Подаваться через рекрутеров в контактах скорее повышает ваши шансы, чем понижает. Заодно они попинают нанимающего менеджера и расскажут о ваших достоинствах, нормально передадут вам фидбек и при желании предложат другие неочевидные вакансии под ваш профиль

03/26/2025, 09:11

t.me/lovedeathtransformers/9188

LO

Love. Death. Transformers.

19 640 subscribers

19

88

5.7 k

https://huggingface.co/Djrango/Qwen2vl-Flux

Полистайте на досуге, любыпотнвя штука. Не утверждаю что у oai что то такое, но посмотреть что сделают в opensource интересно. Простые штуки типа blending, restyle и прочее оно умеет делать.

Вихревых релизов на эту тему не будет.

03/26/2025, 01:13

t.me/lovedeathtransformers/9187

LO

Love. Death. Transformers.

19 640 subscribers

31

11

5.0 k

И Грег который это постил уже не работает ещё работает, и половина команды, но наконец то завозят картинки в 4o!

03/25/2025, 19:18

t.me/lovedeathtransformers/9186

LO

Love. Death. Transformers.

19 640 subscribers

46

34

5.4 k

Deepseek V3 0324

По бенчам сопоставимо с r1/sonnet3.7/4.5, но стоит понимать что на аренах вероятно будет ниже и есть куча кейсов где эти бенчи не будут иметь значения.

model

03/25/2025, 16:48

t.me/lovedeathtransformers/9185

LO

Love. Death. Transformers.

19 640 subscribers

48

34

5.6 k

There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study
TLDR:

1) qwen_ы из коробки умеют соблюдать чат темплей и генерировать aha moment, а llama нет
2) без r1 systemprompt получается лучше
3) у авторов скор на бенче не корелировал с длинной ответа

Что это значит для нас? То что мы опять не понимаем RL что то докидывает кроме метрик на математике или нет.

blog

03/25/2025, 13:17

t.me/lovedeathtransformers/9184

LO

Love. Death. Transformers.

19 640 subscribers

Repost

168

356

4.9 k

03/24/2025, 22:05

t.me/lovedeathtransformers/9183

LO

Love. Death. Transformers.

19 640 subscribers

88

24

5.5 k

Коллеги из https://llmarena.ru/ не забрасывают проект, продолжают добавлять новые модели и функционал. Наконец заехала фича которую я давно просил - тг версия, даже в виде красивого UI!

tg app

03/24/2025, 19:30

t.me/lovedeathtransformers/9182

LO

Love. Death. Transformers.

19 640 subscribers

92

136

7.4 k

Чёт сегодня пять человек пришло в личку с рассказами про сокращения.

Cvшники,nlpшники и прочие ищут работу, пишите в @transformerslovedeatch если у вас есть вакансии в Европе/с удаленкой по миру/в России

В х5 ищут cv-nlp-audio ребята
@loalkota

Рсхб ищут всех-всех-всех nlpшников, а так же cvшников genai и тд @sharthZ23

https://github.com/bobuk/hiring-here/blob/main/Senior_Data_Engineer.md не в россии

Revolute
NLP DS
Core DS
локаций много по европе + теоретически можно лондон, uae, писать за рефером @andrey_kiselev

8 позиций в JB в европе!
https://www.jetbrains.com/careers/jobs/#technologies=Machine+Learning

Ребята из samaya.ai строят агентов в Лондоне!

https://samaya.ai/careers/

Ищут от CТО до Senior ML строить SaaS AI Enterprise Search and Productivity Platform

https://careers.gendalf.ai/akorolev/Gendalf-Careers-143f3071fbeb80ac9a5bd057d2b70b32

03/24/2025, 16:27

t.me/lovedeathtransformers/9180