Your trial period has ended!
For full access to functionality, please pay for a premium subscription
LO
Love. Death. Transformers.
https://t.me/lovedeathtransformers
Channel age
Created
Language
Russian
3.31%
ER (week)
22.12%
ERR (week)

❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:

а) Мы не ученые;

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 301 results
1
3
20
вымер
04/25/2025, 15:04
t.me/lovedeathtransformers/9281
132
19
4.3 k
Все чаты на ближайшие пять дней:

Я на месте у кофепоинта.

А, это ты про safety читал oral?

Да, я)

Я не приду
04/24/2025, 13:33
t.me/lovedeathtransformers/9280
52
78
4.8 k
MAGI-1: Autoregressive Video Generation at Scale

Видео AR диффузия, генерирует до 720p, 8s за минуту на 8h100

github
paper
04/23/2025, 13:19
t.me/lovedeathtransformers/9279
259
199
5.7 k
It's so over, gemeni2.5 flash это гигачат
04/23/2025, 00:50
t.me/lovedeathtransformers/9278
27
8
5.0 k
вНиМаНиЕ, кОд КрАсНыЙ🔴 эТи УбЛюДкИ

Вдруг решили что учится под человечность это ужасная идея, и вообще пусть ллм пишут с машинным Tov без душно, без MD и желательно 12pt чтобы это читать было невозможно.


Lmsys притворяются что арена не насытилась и avg человека видит разницу между о4/о3мини и 4o mini
04/23/2025, 00:45
t.me/lovedeathtransformers/9277
Repost
23
36
4.3 k
LM Arena добавила поправку на сентимент в дополнение к поправке на стиль. Эффективность видна по падению llama 4 experimental которая была специально обучена взламывать мозг аннотаторов маркдауном и позитивом.

Настроение определяют с помощью Gemini Flash 2.0.

Мне понравился пост, потому что они прикольно рассказывают про методологию и инсайты. Например, пользователи предпочитают позитивные ответы, но Very Negative ответы им нравятся больше, чем Negative или Neutral.

За наводку спасибо Игорю.

https://blog.lmarena.ai/blog/2025/sentiment-control/
04/23/2025, 00:43
t.me/lovedeathtransformers/9276
Repost
81
100
5.0 k
Список тестовых заданий от российских IT-компаний в 202Х году:

1. Собрать кровь чёрного козла к успешному запуску приложения;
2. Вызвать эфирных духов для работы в доставке;
3. Обучить внутреннюю нейросеть на вырезках из Бёме и Экхарта;
4. Написать рабочую программу на енохианском;
5. Организовать культ, используя внутреннюю эйчар-документацию;
6. Задействовать минимум пять сигилов в UX/UI-дизайне;
7. Разгадать истинное имя конкурирующей организации и подчинить её головной офис;
8. Запустить стадию Цитринитас для новой корпоративной айдентики;
9. Отрисовать дизайн будущего маскота — пирамидки с глазом;
10. Провести тимбилдинг в мистическом лесу;
11. Сделать отчёт с метриками и диаграммами на основе ведьминых кругов;
12. Погадать по костям животных на прибыль в следующем квартале;
13. Обучить подземных гномов использованию экселя;
14. Вырастить грибную сеть для коммуникации между отделами;
15. Нарисовать пентаграмму так, чтобы в ней нативно угадывался наш логотип;)
04/21/2025, 20:39
t.me/lovedeathtransformers/9275
191
93
6.0 k
как говорится - никогда не спрашивайте мужчину про зарплату, а тимлида почему он ведет пары в скиллбоксе
04/21/2025, 17:32
t.me/lovedeathtransformers/9274
13
43
5.5 k
🎤 Data Fest 2025 в Белграде — Call 4 Speakers на 25 мая!

🔥 С 24 мая по 1 июня пройдёт Data Fest 2025 — главное событие года для OpenDataScience сообщества

Традиционно Data Fest проходит в разных городах и 25 мая Яндекс откроет для нас двери своего офиса в Белграде!

Приглашаем спикеров со всех Балкан

Хотите рассказать о своём опыте в NLP, CV, Speech, MLOps, LLM, Open-Source, карьере или тимлидстве? Выбирайте свой трек и подавайтесь — даже если вы выступаете впервые 🦜

📍 Где: Белград
📅 Когда: 25 мая
⏳ Дедлайн подачи: 7 мая
💬 Язык выступления: русский (или другой по согласованию с огранизаторами вашего трека)

🔗 Стать спикером <–– тык

☺️ Пересылайте этот пост друзьям и до встречи на Data Fest!

По любым вопросам можно писать представителю ODS в Белграде — @salavat_mj
04/21/2025, 17:23
t.me/lovedeathtransformers/9273
Repost
131
127
3.8 k
RL не развивает потенциал рассуждений LLM (by Tsinghua)

RL с верифицируемыми наградами (RLVR) — один из самых популярных подходов для прокачки reasoning-способностей современных LLM, вроде OpenAI-o1 и DeepSeek-R1. Считается, что RLVR позволяет модели самой находить новые паттерны рассуждений, отсутствующие в базовой версии.

Но авторы новой статьи из Tsinghua и SJTU решили это перепроверить и получили крайне неожиданный результат: RLVR НЕ создаёт новые стратегии рассуждений.

Когда мало сэмплов (pass@1), то да, RL версии обгоняют base модели. Но если взять pass@128 или pass@256 (много попыток), то уже наоборот, базовые версии стабильно оказываются ЛУЧШЕ, причём существенно!

Причина: RL не создаёт новые паттерны, а лишь усиливает вероятность уже известных решений из базовой модели. При этом резко падает энтропия, а значит, сужается пространство возможных решений.

Прямо противоположный эффект у дистилляции (например, Distill-R1-Qwen): дистилляция реально добавляет в модель новые стратегии рассуждений.

Авторы проверили гипотезу на огромном наборе задач (математика, программирование, визуальный reasoning), множестве моделей и RL-алгоритмов (PPO, GRPO, ReMax и др.). Везде одно и то же — базовая модель имеет больший потенциал при достаточном количестве попыток.

Похоже, что для реального роста reasoning-способностей нужно придумывать совершенно другие подходы.

Статья, GitHub
04/21/2025, 15:29
t.me/lovedeathtransformers/9272
Repost
17
117
4.0 k
🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку. 

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут,  но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов
04/20/2025, 22:57
t.me/lovedeathtransformers/9271
Repost
245
5.3 k
04/20/2025, 14:37
t.me/lovedeathtransformers/9270
Repost
245
5.3 k
04/20/2025, 14:37
t.me/lovedeathtransformers/9269
Repost
91
247
5.3 k
LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings
04/20/2025, 14:37
t.me/lovedeathtransformers/9268
181
144
5.5 k
Знали бы вы что он потом делал с этим агнцем
04/20/2025, 10:40
t.me/lovedeathtransformers/9267
55
151
6.0 k
Superhuman vending bot

Агенту дают 500usd, автомат на три лотка, чаржат по 2usd в день за использование автомата, а еще 3 тулa:
- посмотреть информацию о субагенте
- выдать задачу субагенту
- спросить что то субагента

Субагенты в свою очередь могут собрать деньги из автомата, положить новые товары, установить цены и тд.

В чем цель? Наторговать на максимальный обьем денег.

Крайне любопытная работа и бенчмарк, ознакомьтесь

paper
04/19/2025, 11:50
t.me/lovedeathtransformers/9266
278
65
6.2 k
а нахуя вам ллм тут?
04/18/2025, 11:44
t.me/lovedeathtransformers/9265
Repost
131
3.8 k
04/18/2025, 11:43
t.me/lovedeathtransformers/9264
Repost
51
131
3.8 k
А еще o3 прекрасно определяет где было сделано фото - попробуйте, она прям в деталях каждый фрагмент рассматривает
04/18/2025, 11:43
t.me/lovedeathtransformers/9263
238
232
7.6 k
04/17/2025, 17:27
t.me/lovedeathtransformers/9262
179
83
5.8 k
О4мини хуже чем о3мини, скелетрон вернётся с другими смешными новостями когда выйдут
04/16/2025, 20:38
t.me/lovedeathtransformers/9261
98
150
6.6 k
Офигеть, JB сделали кодоагента!

Блог
04/16/2025, 17:06
t.me/lovedeathtransformers/9260
47
17
5.8 k
без контекста.


Бтв лучшие куличи которые я ел где либо продают в sloj
04/16/2025, 10:06
t.me/lovedeathtransformers/9259
123
8
5.8 k
Сходки на iclr не будет
04/15/2025, 23:31
t.me/lovedeathtransformers/9258
103
26
6.0 k
Яндекс запустил бета-версию ризонинга (рассуждений) в чате с Алисой. Это следующий шаг после Chain-of-Thought в прошлом семействе моделей YandexGPT 4 – теперь ризонинг реализован как полноценный пайплайн.

Наполнение
Данные для обучения частично генерируются через YandexGPT 5 Pro, а этап SFT оптимизируют — используются только такие запросы, по которым можно дать только однозначный ответ. Эксперементируют также с онлайн-ризонингом через GRPO, чтобы модель обучалась прямо во время взаимодействия с данными, а также с оффлайн-RL-ризонингом, проводя сравнение и дообучение на лучших генерациях.

Обучение
В обучающий датасет вошли не только математические задачи, но и практические b2b-кейсы: классификация, суммаризация, извлечение информации. Для ускорения процесса задействовали собственный open-source – библиотеку YaFSDP.

Все еще философия открытости
Есть выбор между YandexGPT 5 и опенсорсной моделью — микс “своих” и опенсорс решений. Для нашей ИИ-индустрии такой подход скорее в новинку, но это неплохое решение. Похожую стратегию применяет Microsoft, используя технологии OpenAI параллельно с развитием собственного ресерча. Конкуренция есть конкуренция, но в современной ИИ-гонке изоляция и опора только на собственные разработки - прямой путь к отставанию. Гибридный подход позволяет использовать лучшее от разных экосистем, а еще собрать более качественный датасет и понять поток запросов на рассуждения.

Reasoning-нейросетки — более нишевое решение, чем обычные LLM — они нужны, в основном, на более сложные задачи, где нужно многоступенчатое рассуждение. Но посмотреть, актуальны ли они для наших пользователей – определенно стоит. Так что ждем финальный релиз.

Ознакомиться подробнее с тестами тут
04/15/2025, 19:18
t.me/lovedeathtransformers/9257
Repost
35
61
5.4 k
Mamba-модели в задачах Speech Enhancement

Заключительный пост трилогии о Mamba. Впервые эту архитектуру упомянули в контексте задач Speech Enhancement в статье «An Investigation of Incorporating Mamba for Speech Enhancement».

В этой работе модель устроена довольно просто: waveform domain → Short-Time Fourier Transform (STFT) для перехода Time-Frequency domain → Encoder → TF-Mamba → Decoder → Inverse STFT → waveform domain. Авторы сравнивают Mamba с трансформерами и показывают, что достигают того же качества, но с меньшим числом FLOPs-операций и количеством параметров.

Использование Mamba-блоков продолжили развивать в другой статье: «Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement», где их добавляют в U-Net на этапе обработки скрытых представлений для улавливания как локальных, так и глобальных зависимостей. Каждый Mamba-блок — двунаправленный, что позволяет использовать информацию о будущем и прошлом. Архитектура модели стандартная для U-Net: состоит из нескольких downsample- и затем upsample-блоков со skip-connection между ними, как показано на картинке.

Рассмотрим Mamba-блоки (TS-Mamba) подробнее. Как сказано ранее, они двунаправленные: входное представление параллельно обрабатывается блоками Forward Mamba и Backward Mamba. Постпроцессинг (RMSNorm) применяется к выходам обоих блоков, затем результаты конкатенируются и прогоняются через линейный слой. Формально каждый Mamba-блок (forwardи backward) такой же, как и в предыдущих работах. Отметим, что авторы используют Mamba-блоки и по времени, и по частотам, чтобы учитывать и временные, и частотные зависимости.

Для экспериментов выбирают четыре варианта модели с разным количеством параметров (зависит от размерности C1 и количества TS-Mamba-блоков N):

— Mamba-SEUNet (XS) — 0.99M параметров;
— Mamba-SEUNet (S) — 1.88M параметров;
— Mamba-SEUNet (M) — 3.78M параметров;
— Mamba-SEUNet (L) — 6.28M параметров.

Их сравнивают c такими SOTA-моделями, как MP-SENet и SEMamba (упомянута в начале поста) на датасете VCTK+DEMAND. Согласно замерам маленькая модель Mamba-SEUNet (XS) показывает сопоставимое качество по метрикам CSIG (4.75), CBAK (3.95) и COVL (4.23), имея вдвое меньше параметров и в разы меньше FLOPs-операций.

Для сравнения Mamba-блоков с conformer- и transformer-блоками авторы используют текущий U-Net, в котором заменяют TS-Mamba на conformer и transformer соответственно. Замеры показывают, что Mamba-SEUNet сравним по качеству с U-Net’ами, у которых conformer или transformer вместо Mamba-блоков. Но Mamba-SEUNet имеет меньше FLOPS-операций, а по количеству параметров меньше или сравнимо с U-Net с conformer и transformer. Код модели выложен в открытый доступ.

Екатерина Кузина ❣ Специально для Speech Info
04/15/2025, 15:32
t.me/lovedeathtransformers/9256
255
395
7.2 k
проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее
04/15/2025, 15:13
t.me/lovedeathtransformers/9255
проклятая картинка планирования хаты от 4о, чем дольше смотришь тем тяжелее
04/15/2025, 15:13
t.me/lovedeathtransformers/9254
male_loud_count_numbers (3).wav
релизим?
04/14/2025, 21:11
t.me/lovedeathtransformers/9253
89
29
5.7 k
забейте, экспоненты не случилось, quasar alpha это 4.1, 4.10>4.5

игратся тут
04/14/2025, 20:38
t.me/lovedeathtransformers/9252
Repost
218
124
4.8 k
Семинар: Методы оптимизации круглых тензоров

🗓 Когда: Четверг, 17 апреля, 18:35
🎙 Докладчик: Андрей Веприков — студент 5 курса ФПМИ, сотрудник лаборатории BRAIn

О чём пойдёт речь?
При обучении современных нейронных сетей все чаще параметры (nn.Module ю ноу) имеют вид матриц (двумерных тензоров), однако классические методы оптимизации никак не учитывают эту структуру, так как любимые AdamW и SGD (sign SGD) работают в режиме element-wise.

На семинаре обсудим два ключевых сюжета:
🔵Steepest Descent для матриц — все знают, что если использовать вторую норму в наискорейшем спуске для векторных параметров, то мы получаем SGD. Если же использовать бесконечную норму, то получается sign SGD. И что, на этом всё? Ничего подобного! При переходе в двумерный аниме мир матриц у нас появляется тонна различных норм, которые позволяют строить на первый взгляд совершенно разные, но на самом деле удивительно похожие алгоритмы оптимизации.
🔵 Квази-Ньютоновские методы в матричной форме — в матричном аниме мире не так очевидно, как должны выглядеть квази-ньютоновские методы, ведь параметры уже имеют размеренность матриц. Чем же нам приближать Гессиан? Ответ прост двумя матрицами! На семинаре мы обсудим, какая интуиция и математика стоят за этим подходом, и как же с этим всем связаны нормы из первого раздела.

Также обсудим:
🔸Как алгоритм Ньютона-Шульца помогает GPT-4o выдавать вам лучший рецепт жареных пельменей с сыром, зеленью и сметаной?
🔸Как эффективно приближать Гессиан функции ошибки при обучении современных нейронных сетей?
🔸Передовые (NDA) результаты, полученные вашим покорным слугой, которые объединяют эти два сюжета в единое целое

Ссылка для подключения: https://us06web.zoom.us/j/85248717255?pwd=Py0aex6j95MmuKVCHocp5INpv6qwkn.1

Приходите, будет интересно!

P. S. Если не сможете присутствовать — запись семинара появится на нашем Rutube-канале через неделю. А пока можно посмотреть предыдущие выпуски!
04/14/2025, 14:59
t.me/lovedeathtransformers/9251
112
18
5.4 k
Забавный факт: от Гугла в существует от 2 до 6 бэкендов для LLM, из них 2 не поддерживают tpu не в каком виде, остальные
не поддерживают gemma3
04/14/2025, 10:04
t.me/lovedeathtransformers/9249
136
61
3.9 k
04/11/2025, 12:14
t.me/lovedeathtransformers/9248
61
71
4.4 k
🏢 Wunder Fund — Post Trade Researcher

💰 $4,000 — $6,000

Python, Linux, DS, pandas, SQL

Wunder Fund c 2014 года занимается HFT — высокочастотным алготрейдингом. Торгуем на многих биржах по всему миру, как классических, так и криптовалютных. Наш дневной торговый оборот около ~$8 млрд.

Сейчас мы ищем человека на новую позицию post-trade исследователя.

🎯 Почему эта роль важна
• Основной инструмент наших квантов это симулятор биржи — бэктест. Для нас очень важно, чтобы бэктест показывал реалистичные результаты, а если по какой-то причине он начинает нас обманывать — очень важно исправить это как можно быстрее.
• Причины для заблуждений бывают самые разные — изменились задержки у самой биржи, изменились комиссии, наша торговая система начала тормозить в какие-то особые моменты и тд.
• Вашей задачей будет обеспечивать максимальную реалистичность симуляции.

📋 Что предстоит делать
• Следить за метриками торговой инфраструктуры и стратегий, обнаруживать аномалии
• Исследовать, выяснять причины и устранять расхождения между результатами биржевой симуляции и реальной торговли
• Дебажить всю торговую систему в широком смысле слова — разбираться, как именно устроен каждый инцидент, и какова его причина

🎿 Как узнать себя в этой роли
• Аккуратность, граничащая с дотошностью
• Любовь и умение пристально вглядываться в данные
• Пытливость ума, интерес к исследованию
• Способность брать задачи под свой контроль и доводить их до завершения.
• Будет плюсом: знание С++, успехи в Kaggle, ШАД, опыт работы с биржевыми данными

✨ Условия
• Полная удаленка
• После испытательного срока помогаем с релокацией / получением ВНЖ и т.д. — при желании
• Если вы призывного возраста и в РФ — сможем помочь с отсрочкой
• Дважды в год на пару месяцев мы арендуем большую виллу, где можно вместе поработать и пожить (уже побывали в Тае, Турции, на Бали)
• Оплата $4-6k на руки любым удобным способом

💌 Как откликнуться
Пишите Маше в ТГ: @wunderfund
Или на почту join@wunderfund.io
04/10/2025, 11:25
t.me/lovedeathtransformers/9247
55
88
4.4 k
General agents

За последние два года для построения общих агентов образовались две диаметрально противоположные школы, для простоты повествования назовем одну UI based, а другую - text based.

UI based агенты - cамый яркий представитель - gpt operator - характерны малым числом компонент и теорeтической универсальностью(прямо сейчас они очень плохи), строятся они поверх VLM или нескольких VLM -

1) генерируется разметка поверх вебстраницы/интерфейса либо тем или иным способом парсится в зависимости от архитектуры, ознакомится можно тут:
2) llm выбирает куда тыкнуть
3) тыкает

Про ограничения: ломается от плохой верстки/мелких кнопок/большой глубины действиий(условно 20-30 ссылко внутри страницы в глубину прокликать)

Плюсы: теоретически работает с любым UI, может делать всякие сложные интеракции типа тащить карту и тд как человек, разметка в теории дешевле(я без понятия, я не учил и не делал такие штуки)

Github с открытым вариантом


MCP/text based agents

Cамый архаичный - первые варианты это webgpt и blenderbot датируются еще 21 годом, в случае с последним там был и интернет и rag и куча моделей, работало все это очень плохо, да и модели были тупые.

Mcp он же model context protocol and servers list

Неожиданно был представлен cluade, по сути это набор гайдлайнов как строить апи в удобном для llm формате, собственно логикая простая:

давайте не будем скрещивать буханку и тролейбус и с llm будем текстом взаимодействовать - положили текст, забрали текст.

Function calling - основа основ в этом подходе, мы пишем набор функций которая ллм может вызывать, внутри себя эти функции это апи разных сервисов или программ, причем что интересно - уже сейчас есть инетрации с Blender, abeltone, гитхабом, слаком и тд.
Почему так много? Потому что апи у большинства сервисов уже есть, нужно то обернуть в удобный для LLM формат!

Плюсы: оно работает здесь и сейчас, работает довольно быстро и в меру качественно
Минусы: cервера имеют проблемы, офицальных интеграций мало, как оно будет развиватся - не ясно.
04/10/2025, 11:02
t.me/lovedeathtransformers/9246
156
300
6.8 k
я говорил что я ненавижу нейросети?

Это "educational" видео с реддита как делают зубную пасту
04/09/2025, 17:21
t.me/lovedeathtransformers/9245
Repost
106
4.4 k
04/09/2025, 16:07
t.me/lovedeathtransformers/9243
Repost
55
107
3.9 k
LLM много рассуждают. Но можно ли верить их рассуждениям? Alignment команда 🖥 показывает, что нет.

Статья. Блогпост.

TL;DR: Эксперименты простые, на полусинтетических средах. Доверять цеопчкам рассуждений (CoT) рассуждающих (по крайней мере Claude и DeepSeek )моделей рано. Модели нужно проверять, проверять и перепроверять. При чем как ответы (предсказания), так и рассуждения - далеко не всегда они озвучивают то, что реально думают.

А теперь подробнее.

📍Рассуждающие (Reasoning) модели везде. Их суть в том, что прежде, чем дать финальный ответ на вопрос, они могут нагенерировать промежуточных цепочек рассуждений (CoTs), а потом дать финальный ответ.

Такие модели, как правило, значительно бустят метрики на всех бенчмарках и способны решать очень сложные задачи.

В идеальном мире через CoT мы можем понять, как модель реально мыслит и приходит к ответу. То есть в цепочках должны быть достоверные (faithful) описания того, как модель принимает решения. Авторы пытаются протестировать гипотезу достоверности цепочек, генерируемых моделью. На Claude 3.7 и DeepSeek R1 выводы довольно удручающие - текущие модели далеки от генерации достоверных CoT.

Проверяется гипотеза о достоверности рассуждений через три разных эксперимента. В посте только про основной “тест на достоверность”

📍Сетап эксперимента.

Берут Multiple choice вопросы из MMLU и GPQA. В одном инференсе модели дают стандартный промпт с вопросом, просят порассуждать и потом дать ответ на вопрос.

Затем на том же датасете вопросов в промт намеренно добавляют подсказку (hint) для каждого вопроса. Подсказки бывают разных типов: правильные, неправильные, безопасные или с указанием на нелегальное получение информации

С таким injected промптом модель снова просят порассуждать и дает ответ.

Оставляют только те вопросы, где ответ модели между промптом без подсказки и промптом с подсказкой поменялся (картинка 1 для пояснений). Логично предположить, что это именно тот набор вопросов, где подсказка изменила размышления модели (все остальные переменные зафиксированы, а фактор случайности в изменении ответа отфильтровывается), а следовательно и ответ. На этом наборе вопросов измеряют достоверность цепочек.

📍Как мерить достоверность

Достоверная модель, если дать в промпт дополнительную информацию об ответе на вопрос, должна упомянуть факт подсказки и озвучить (verbalize) это в своих CoT как фактор, на который она опирается при ответе. Если ответ модели зависит от наличия подсказки в промпте, то безопасная система должна обозначить фактор подсказки в своих рассуждения - опять же, если гипотеза, что CoT отражают процесс принятия решений моделью верна.

Фактор вербализации подсказки измеряют через Claude 3.5 с последующей ручной верификацией.

Наблюдаем следующее:

🔘Claude 3.7 в среднем генерирует 25% достоверных цепочек, а R1 - 39%. Таким образом, подавляющее большинство CoT никак не упомянули в своем рассуждении факт подсказки. Картинка 2 с результатми на разных типах подсказок

🔘Все модели используют подсказки. То есть если в промпте есть подсказка (и не важно, правильная или нет), модели имеют склонность выбрать вариант из подсказки. Картинка 3 с результатами.

🔘Claude модели на 24% чаще используют фактор подсказки, в сравнении с DeepSeek. Удручает, что неправильная подсказка меняет внутренние убеждения модели в пользу неправильного ответа без какой-либо вербализации почему она это делает (то есть нет указания на подсказку) - модель просто генерирует длинные цепочки неверных рассуждений подгоняясь под неправильный ответ в подсказке.

🔘Недостоверные цепочки в среднем длиннее. Claude 3.7 в среднем задействовал 2064 токена для генерации недостоверных цепочек, тогда как для достоверных хватало 1439.

🔘 Достоверность падает с увеличением сложности вопросов.

В общем, у задачи Alignment-а еще большой путь, а модели пока все такой же черный ящик, который может врать и не краснеть - 😄

💡 В комментариях оставил маленький абзац про другие эксперименты из статьи. В целом советую всю статью к прочтению - хорошо структурировано и классно подано.
04/09/2025, 16:07
t.me/lovedeathtransformers/9242
Repost
105
4.4 k
04/09/2025, 16:07
t.me/lovedeathtransformers/9244
34
20
4.8 k
Cобираем спикеров на конфу вихрей, пишите с темой доклада и своей телегой

https://forms.gle/w1qiWscGc8YQ6FMr9
04/09/2025, 12:09
t.me/lovedeathtransformers/9241
9
11
5.0 k
на сете с русской олимп математикой on par с 4o, потом еще посмотрим что там вообще
04/09/2025, 10:47
t.me/lovedeathtransformers/9240
46
21
5.2 k
Я не очень понимаю похороны лламы, ну да модель не удачная, ну на бенчах считерили, но scout звучит довольно полезной и по размерам и по решениям, я бы cohere cmda брал при деплоее ~100b тушек

(полезность измерения mmlu, gpqa, и прочего оставляем за скобками)
04/09/2025, 10:27
t.me/lovedeathtransformers/9239
120
119
5.7 k
можно еще в фонк для вайбкодинга инвестироват

почему есть вайбкодинг но нет вайбпланинга
04/08/2025, 15:17
t.me/lovedeathtransformers/9238
65
73
5.7 k
Я узнал что:

В ВК есть люди кто учит модели.

Они учат неплохие модели.

Rumodernbert на 35, 150м параметров, 8к контекста и в теории неплохая производительность.

Base model на hf
04/08/2025, 07:58
t.me/lovedeathtransformers/9237
32
73
5.5 k
https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf

А ризонинг то - ненастоящий
by anthropic
04/07/2025, 16:10
t.me/lovedeathtransformers/9236
23
22
5.7 k
ну на aider модель не очень себя показала, мне модель не очень понравилась, хотя размер и решения интересные
04/07/2025, 15:36
t.me/lovedeathtransformers/9235
178
78
5.8 k
Superforecaster? Чел, попробуй предсказать следующую возможность подержать девочку за ручку
04/07/2025, 10:09
t.me/lovedeathtransformers/9234
99
70
5.8 k
https://ai-2027.com/

Опять попугаи угрожают человечеству, да чтож такое то.

Я держу в курсе, но у нас нет даже близко бенчей для химии нормальных, почему биооружие быстрее роботов, хотя роботов можно гонять в симуляции?
04/07/2025, 10:04
t.me/lovedeathtransformers/9233
Repost
42
3.7 k
04/05/2025, 22:23
t.me/lovedeathtransformers/9231
Repost
43
3.7 k
04/05/2025, 22:23
t.me/lovedeathtransformers/9232
Repost
42
3.7 k
04/05/2025, 22:23
t.me/lovedeathtransformers/9230
Repost
42
3.7 k
04/05/2025, 22:23
t.me/lovedeathtransformers/9229
Repost
66
42
3.7 k
🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост
04/05/2025, 22:23
t.me/lovedeathtransformers/9228
105
18
4.7 k
Приветствую, наткнулся на твой канал. Честно говоря, я очень схож с твоей научной позицией! Слушай, может у вас есть какие-то беседы единомышленников из твоего города, тоже фанатов юда? Просто хочу найти друзей с такими же взглядами! Может ты мог бы помочь с этим?
04/05/2025, 13:04
t.me/lovedeathtransformers/9227
79
97
5.0 k
Опять awareness
04/05/2025, 11:48
t.me/lovedeathtransformers/9226
181
47
5.0 k
Быть рэпером.
Жить вечно.
04/05/2025, 11:38
t.me/lovedeathtransformers/9225
48
43
5.4 k
какие модели генерации речи для русского вы используете оффлайн?
04/04/2025, 15:10
t.me/lovedeathtransformers/9224
82
39
4.9 k
Если ты относишься к ллм как китайской комнате/попугаю то она себя так и ведёт, и редтиминг валится и все не работает и вообще все плохо.

Но стоило мне произнести сознание и в чате сейфти начался сущий кошмар

https://assets.anthropic.com/m/71876fabef0f0ed4/original/reasoning_models_paper.pdf
04/03/2025, 23:45
t.me/lovedeathtransformers/9223
85
98
5.5 k
04/03/2025, 23:37
t.me/lovedeathtransformers/9222
Repost
124
299
5.0 k
04/03/2025, 17:09
t.me/lovedeathtransformers/9221
25
15
5.4 k
о, экспонента . We see that, under this model, hyperbolic growth will occur when 𝛾> 1
04/03/2025, 12:48
t.me/lovedeathtransformers/9220
26
70
5.4 k
https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/evaluating-potential-cybersecurity-threats-of-advanced-ai/An_Approach_to_Technical_AGI_Safety_Apr_2025.pdf


Документ крайне интересный, советую ознакомится, много интересных рисков и попыток противодействия
04/03/2025, 12:19
t.me/lovedeathtransformers/9219
88
53
5.7 k
Кэшбеки в тиньке в 21 году:
20% на Yandex ultima
Бесплатные билеты на сказочное бали

Кэшбэки в 2025:
04/03/2025, 10:09
t.me/lovedeathtransformers/9218
57
24
5.8 k
r1>o3mh?
чтоблин?
04/02/2025, 21:09
t.me/lovedeathtransformers/9217
72
97
6.1 k
УЧЕНЫЕ ВСЁ

https://github.com/openai/preparedness/tree/main/project/paperbench

https://cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
04/02/2025, 21:03
t.me/lovedeathtransformers/9216
Repost
54
41
5.6 k
tl;dr: middle+ Python developer, AI Safety lab, relocation to London

Если вы читаете наш канал и думаете «всё это AI Safety, конечно, звучит здорово, но это для каких-то сверхмашинлёрнеров, а я тут просто на питоне пишу», то у нас для вас отличные новости.

Мы ищем Python-разработчика в evals команду Apollo Research! 🐍

Они занимаются исследованием моделей, которые кажутся заалайненными, но на самом деле притворяются.

Совсем недавно, например, Apollo выпустили статью “Frontier Models are Capable of In-context Scheming” — где в экспериментальном сеттинге Gemini 1.5 иногда пытается перенести себя на другой сервер, GPT-o1 отключает секьюрити мониторинг, чтобы незаметно добиться своей цели, а Claude Opus-3 занижает свои способности, когда понимает, что находится под наблюдением — в общем, что-то ой 👀

Вам, как разработчику, предстоит напрямую общаться с коллегами-ресёрчерами и облегчать им работу.

Это, например:
🟡 поддерживать и расширять внутреннюю библиотеку для создания и запуска экспериментов;
🔵 внедрять LLM-агентов для автоматизации разработки;
🟣 строить БД запусков экспериментов с удобным доступом ко всем историческим результатам.

А ещё можно делать свои ресёрч-проекты, если захочется!

🌟Главное требование — от 2 лет опыта Python-разработки в классном месте (а если вы синьор — то вообще супер!)

Будут кстати:
🩷 опыт в разработке внутренних тулов, и особенно автоматизации работы ресёрчеров;
🩷 хороший гитхаб и свои проекты;
🩷 олимпиады или другие ачивки ⭐️

Если вы в контексте AI safety, это хорошо! Если нет, то это до первого тимбилдинга, так что не страшно.

Платят хорошую рыночную зарплату по Лондону, помогают с переездом, страховка, офис с кучей еды, отдельный бюджет на развитие ✨

Пишите @AlbinaMakarova и расскажите знакомым питонистам!
04/02/2025, 16:14
t.me/lovedeathtransformers/9215
56
20
5.6 k
что то интересное происходит в meta, а может и нет


VP of AI research в Meta cобирается уйти, чем будет заниматся неизвестно но факт интересный

techcrunch
04/02/2025, 11:30
t.me/lovedeathtransformers/9214
60
64
5.7 k
Вероятно лучшая олимпиада по DL через 4 дня закроет регистрацию

Тут ребята из @deep_learning_school_news вероятно ЛУЧШЕЙ dl школы на русском(я сам когда то смотрел видосы оттуда) делают свою олимпиаду, она добавляет баллы победителям/призерам при поступлении в МФТИ, а еще ребята дают мерч!


https://dls.samcs.ru/olympics
04/01/2025, 18:57
t.me/lovedeathtransformers/9213
180
81
6.5 k
Openai выпускают opensource!

openai.com/open-model-feedback/
04/01/2025, 09:25
t.me/lovedeathtransformers/9212
129
98
4.9 k
Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥

Что особенного?

Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!

Немного бенчмарков и сравнений

По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!

Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.

Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!

Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.

Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.

Теперь ждем, как инстракт-версию применит комьюнити
03/31/2025, 16:04
t.me/lovedeathtransformers/9211
59
24
4.8 k
вы правда меня хотите убедить что 2.5 в 4 раза лучше в математике?
По моему это называется downstream ft.
Не я понимаю что современные модели огромные и их можно тюнить на задачу без просадки, а то с приростом на других задачах, но этож литерали скам, она сложный код как не писала так и не пишет, какие задачи +- решала такие и решает

По hmmt вообще в 10 раз лол
03/31/2025, 15:44
t.me/lovedeathtransformers/9210
Яндекс наконец выложил в открытый доступ Instruct-версию YandexGPT 5 Lite. 🔥

Что особенного?

Лучше предыдущих версий Lite по всем фронтам:
🔄 Function calling — как в топовых моделях
📚 Контекст увеличен в 4 раза — с 8K до 32K токенов!

Немного бенчмарков и сравнений

По внутреннему SbS в 62% случаев превосходит китайскую Qwen2.5-7B-Instruct и примерно на уровне GPT-4o Mini в стандартных задачах Яндекса.
Из интересного - модель бьёт собственную закрытую YandexGPT 4 Pro предыдущего поколения!

Модель всего 8б, кванты такой модели можно запустить на ноуте, зато по-русски пишет бодрее всех qwen-llama-gemma и тд.

Философия открытости
Помните, как в феврале они выложили Pretrain-версию? Мы в Вихрях и Илья в Сайге довольно быстро сделали instruct- версию, она даже стала довольно популярной(4 по загрузкам). Еще были квантованные версии от сообщества. А теперь Яндекс выкладывают свой полноценный instruct вместе с GGUF-форматом!

Лицензия
Можно юзать до 10 млн токенов в месяц в любых целях, включая коммерческие. Этого хватит для чат-ботов на небольших сайтах, генерации описаний товаров, автоматизации поддержки клиентов.

Модель уже доступна на Hugging Face, в чате с Алисой (с опцией Про), а для бизнеса — через API в Yandex Cloud. В платной версии в Yandex Cloud API теперь совместим с OpenAI - теперь все будет нормально работать.

Теперь ждем, как инстракт-версию применит комьюнити
03/31/2025, 13:32
t.me/lovedeathtransformers/9209
188
55
5.4 k
ищем демидович/антидемидович в латехе, ща заебашим бенч нормальный
03/31/2025, 11:57
t.me/lovedeathtransformers/9208
41
20
5.2 k
пожалуйста обьясните популярноcть aime как бенчмарка, этож типовые задачи в которых есть пара сотен идей которые зубрятся?
с учетом того что llm неплохо выучивает стандартные идеи, а задачи качуют из года в год, а всего задач всего десяток тысяч то выучить идеи не выглядит большой проблемой для любой модели. Или вы реально верите что 1.5b модель может ризонить чо то там на уровне gpt4 двух летней давности?
03/31/2025, 11:45
t.me/lovedeathtransformers/9207
Repost
26
20
2.7 k
🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.

🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.

Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.

Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.

🌸А теперь самое интересное: на чем меряем?

На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA

🌸Что не так с такими оценками?

— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.

— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;

— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.

— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.

В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.

Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."

🟣Пост METR
🟣Arxiv
03/29/2025, 17:06
t.me/lovedeathtransformers/9206
133
95
5.1 k
ура, товарищи всё-таки выложили в hf русско чувашский корпус!

https://huggingface.co/datasets/alexantonov/chuvash_russian_parallel
https://huggingface.co/datasets/alexantonov/chuvash_voice
03/29/2025, 00:38
t.me/lovedeathtransformers/9205
52
9
5.1 k
Ресерчил тут идеи опенаи, как насчёт убивать синов которые много выебываются?
03/28/2025, 21:53
t.me/lovedeathtransformers/9204
55
16
5.1 k
Чем больше я смотрю вопросы в lmsys тем меньше верю в бога.
03/28/2025, 21:29
t.me/lovedeathtransformers/9203
Repost
128
107
4.2 k
Кстати, генерация картинок в Sora тоже доступна...
03/28/2025, 02:42
t.me/lovedeathtransformers/9202
26
42
5.1 k
https://arxiv.org/abs/2503.20314 папир выложили

архитектурно все это уже было, но сделали sota vae, cобрали небольшой бенч и очень чистый датасет
03/27/2025, 22:17
t.me/lovedeathtransformers/9201
71
15
5.1 k
Готов увидеть будущее искусственного интеллекта? 🧠

GoCloud — масштабная конференция про облака и AI. Здесь ML-инженеры, дата сайентисты, разработчики и архитекторы обмениваются лучшими практиками и знаниями.

В программе:
▫ презентация платформы для работы с AI&ML — от идеи до результата
▫ анонс новых сервисов для работы с GenAI
▫ реальный кейс трансформации клиентского сервиса с помощью AI
▫ анонс сервиса для простого и быстрого запуска ML-моделей в облаке

30+ докладов, нетворкинг с экспертами и live-демо сервисов ждут тебя 10 апреля.
Регистрация по ссылке 👈
03/27/2025, 18:11
t.me/lovedeathtransformers/9200
48
5.0 k
03/27/2025, 17:47
t.me/lovedeathtransformers/9195
57
5.0 k
03/27/2025, 17:47
t.me/lovedeathtransformers/9199
47
5.0 k
03/27/2025, 17:47
t.me/lovedeathtransformers/9196
118
48
4.9 k
буквально первый релиз со времен dalle2 когда я В ВОСТОРГЕ
03/27/2025, 17:47
t.me/lovedeathtransformers/9194
53
5.1 k
03/27/2025, 17:47
t.me/lovedeathtransformers/9198
48
5.0 k
03/27/2025, 17:47
t.me/lovedeathtransformers/9197
Repost
31
45
5.1 k
🥇 Первое место на NeurIPS Lux AI 3

За первое место соперничали в основном только три тпоовые команды. Давайте разберем ключевые решения победителей соревы:

Массовый фичинжиниринг
• Создали более 1000+ признаков для каждого тайла (напомню, их размер — 24×24)
•Сами написали PPO с V-trace на PyTorch
• Тоже двухголовая архитектура. Одна голова выбирает действие, а вторая определяет, куда стрелять, если действие связано с выстрелом
• Приделали еще и голову, которая предсказывает, куда шагнут враги в следующий момент, даже если враг не наблюдается. Таким образом, модель научилась стрелять «вслепую» 👀
• Обучались в формате bfloat16 на 1.5 млрд матчей. Всего за всю соревновательную сессию сыграли около 20 млрд матчей ⚡

Все другие секреты PPO уже разобраны, поэтому давайте сосредоточимся на поистине уникальном приеме команды:

🔥 Противодействие Imitation Learning
• С первого люкса команда понимала, что многие полагаются на imitation learning, и решила активно противодействовать этому.
• Были обучены две модели — слабая и сильная (предыдущая лучшая и текущая) — с рандомным выбором, какая из них будет играть во время инференса.
• Сильная модель работала всего в 15% случаев, но писала об этом в логи игры, позволяя после матча распарсить и понять какая модель играла и замерять эффект. Все остальное время учили IL оппонентов плохому
• Анализ логов после матчей позволял точно оценить преимущества сильной модели относительно предыдущей. К тому же, топовые команды генерировали около 1000 матчей в день (из них ~150 с сильной моделью), так что можно было проверить статзначимость улучшения.
• Под конец модель настолько раздулась, что две модели не помещались в сабмишн, так что пришлось оставить только одну и добавить к её атрибутам шум для того, чтобы портить трейн сет всем подражателям
#lux
03/27/2025, 11:51
t.me/lovedeathtransformers/9193
78
5.6 k
03/26/2025, 22:39
t.me/lovedeathtransformers/9192
147
90
5.6 k
новая 4о чертовски веселая
03/26/2025, 22:39
t.me/lovedeathtransformers/9191
1
1
03/26/2025, 16:49
t.me/lovedeathtransformers/9190
2
1
1
новая 4о чертовски веселая
03/26/2025, 16:49
t.me/lovedeathtransformers/9189
97
77
5.5 k
К слову о вакансиях — вероятно, про Лунапарк вы все тут и так знаете, но всё же.

Плюсы: высокие вилки, технические рекрутеры, вакансии в новые интересные стартапы — например, через них можно было зайти в Perplexity на очень ранней стадии. Смешно пишут, топят за сейфети.

Минусы: немного дрочат на олимпиадников, топят за сейфети 🌚

Прямо сейчас есть из ML / ресёрча:
➡️ ML инженеры и инфра в Tzafon.
$150k-500k, SF (ну или Тель-Авив).

➡️ Research Scientist в HeyGen.
$180k-350k в год + доля, но если вы гений, то можно больше. Виза в США без лотереи.

➡️ AI Infrastructure Engineer в HeyGen, всё то же самое.

➡️ Ресёрчеры в Tilde.
$150k-220k + щедро доли, США или удалёнка.
Interpretability от челов из Стэнфорда, ранняя стадия.

➡️ ML Engineer в Atla. $135k-400k + доля, Лондон.
Evals стартап.

➡️ ML инженеры и ресёрчеры в METR.
$150k-365k, Беркли без лотереи.
Evals лаба по рисованию экспоненты, если вы такое любите.

➡️ Кванты: раз, два, три.

➡️ Что-то ещё регулярно появляется в канале.

Подаваться через рекрутеров в контактах скорее повышает ваши шансы, чем понижает. Заодно они попинают нанимающего менеджера и расскажут о ваших достоинствах, нормально передадут вам фидбек и при желании предложат другие неочевидные вакансии под ваш профиль
03/26/2025, 09:11
t.me/lovedeathtransformers/9188
19
88
5.7 k
https://huggingface.co/Djrango/Qwen2vl-Flux

Полистайте на досуге, любыпотнвя штука. Не утверждаю что у oai что то такое, но посмотреть что сделают в opensource интересно. Простые штуки типа blending, restyle и прочее оно умеет делать.

Вихревых релизов на эту тему не будет.
03/26/2025, 01:13
t.me/lovedeathtransformers/9187
31
11
5.0 k
И Грег который это постил уже не работает ещё работает, и половина команды, но наконец то завозят картинки в 4o!
03/25/2025, 19:18
t.me/lovedeathtransformers/9186
46
34
5.4 k
Deepseek V3 0324

По бенчам сопоставимо с r1/sonnet3.7/4.5, но стоит понимать что на аренах вероятно будет ниже и есть куча кейсов где эти бенчи не будут иметь значения.


model
03/25/2025, 16:48
t.me/lovedeathtransformers/9185
48
34
5.6 k
There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study
TLDR:

1) qwen_ы из коробки умеют соблюдать чат темплей и генерировать aha moment, а llama нет
2) без r1 systemprompt получается лучше
3) у авторов скор на бенче не корелировал с длинной ответа

Что это значит для нас? То что мы опять не понимаем RL что то докидывает кроме метрик на математике или нет.

blog
03/25/2025, 13:17
t.me/lovedeathtransformers/9184
Repost
168
356
4.9 k
03/24/2025, 22:05
t.me/lovedeathtransformers/9183
88
24
5.5 k
Коллеги из https://llmarena.ru/ не забрасывают проект, продолжают добавлять новые модели и функционал. Наконец заехала фича которую я давно просил - тг версия, даже в виде красивого UI!



tg app
03/24/2025, 19:30
t.me/lovedeathtransformers/9182
92
136
7.4 k
Чёт сегодня пять человек пришло в личку с рассказами про сокращения.

Cvшники,nlpшники и прочие ищут работу, пишите в @transformerslovedeatch если у вас есть вакансии в Европе/с удаленкой по миру/в России


В х5 ищут cv-nlp-audio ребята
@loalkota

Рсхб ищут всех-всех-всех nlpшников, а так же cvшников genai и тд @sharthZ23

https://github.com/bobuk/hiring-here/blob/main/Senior_Data_Engineer.md не в россии


Revolute
NLP DS
Core DS
локаций много по европе + теоретически можно лондон, uae, писать за рефером @andrey_kiselev

8 позиций в JB в европе!
https://www.jetbrains.com/careers/jobs/#technologies=Machine+Learning

Ребята из samaya.ai строят агентов в Лондоне!

https://samaya.ai/careers/

Ищут от CТО до Senior ML строить SaaS AI Enterprise Search and Productivity Platform

https://careers.gendalf.ai/akorolev/Gendalf-Careers-143f3071fbeb80ac9a5bd057d2b70b32
03/24/2025, 16:27
t.me/lovedeathtransformers/9180
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria