У вас закончился пробный период!
Для полного доступа к функционалу, пожалуйста, оплатите премиум подписку
SE
Старший Авгур
https://t.me/senior_augur
Возраст канала
Создан
Язык
Русский
1.73%
Вовлеченность по реакциям средняя за неделю
8.25%
Вовлеченность по просмотрам средняя за неделю

Сохраненки и шитпост про ML от @YallenGusev

Чат канала: @augur_chat

Сообщения Статистика
Репосты и цитирования
Сети публикаций
Сателлиты
Контакты
История
Топ категорий
Здесь будут отображены главные категории публикаций.
Топ упоминаний
Здесь будут отображены наиболее частые упоминания людей, организаций и мест.
Найдено 66 результатов
SE
Старший Авгур
5 448 подписчиков
36
12
1.6 k
VLLM, ты чего...
Самое абсурдное, что я же обучил модель с FA2. Поэтому оно точно поддерживает head size = 72.

Issue в FA2, где они говорят, что всё ок: https://github.com/Dao-AILab/flash-attention/issues/1542 (потому что всё действительно ок).

Issue в VLLM, где они сваливают всё на FA2: https://github.com/vllm-project/vllm/issues/12656, хотя косяк в их коде.
24.04.2025, 10:59
t.me/senior_augur/438
SE
Старший Авгур
5 448 подписчиков
45
13
1.8 k
Продолжая тему дообучения Геммы 3 (которая на самом деле Джемма, но раз уж начал...)

Первые SFT и SMPO черновики готовы, но получилось хуже оригинальной модели, так что они в любом случае отправляются в мусорку. Оригинальная модель при этом генерирует ответы в среднем в 2.5 раза длиннее gpt-4o (см. скриншот), что заставляет меня использовать контроль длины в арене.

Из интересного — unsloth принудительно и без предупреждения выбирает SDPA вместо FA2. См. код тут. Отсюда все проблемы с повышенным потреблением памяти и OOM. Зачем они это сделали — загадка.

Сейчас я раскомментировал FA2 и учу SFT версию с 32к контекстом, потом переучу и SMPO.
22.04.2025, 15:53
t.me/senior_augur/437
SE
Старший Авгур
5 448 подписчиков
Репост
5
46
1.0 k
🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку. 

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут,  но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов
20.04.2025, 22:56
t.me/senior_augur/436
SE
Старший Авгур
5 448 подписчиков
68
19
2.5 k
OpenAI, ты чего... 😂
15.04.2025, 20:42
t.me/senior_augur/435
SE
Старший Авгур
5 448 подписчиков
99
32
1.9 k
Месяц я ждал, когда все грабли по тюну Геммы 3 будут собраны кем-то другим.
Но когда я вчера сунулся тюнить 12b, я пожрал столько дерьма...
- Понадобился апгрейд всего софта (что ожидаемо).
- apply_chat_template с нифига стал требовать [{"type": "text", "text": "..."}] вместо просто строк.
- apply_chat_template с нифига стал возвращать вложенный список.
- У Геммы сильно другая структура модулей, поэтому моё кастомное связывание эмбеддингов с ней не сработало.
- Валидационная часть обучения не работает из-за этого бага: https://github.com/huggingface/transformers/issues/36938. Если же обновить transformers до последней версии, разносит уже unsloth.

И я только где-то на середине дебага 🤔
14.04.2025, 10:41
t.me/senior_augur/434
SE
Старший Авгур
5 448 подписчиков
45
98
2.4 k
Я регулярно просматриваю новые датасеты на HF. Вот подборка людей и организаций, которые мне попадаются довольно часто:

https://huggingface.co/nyuuzyou.
Про один из датасетов этого человека я уже постил тут. А всего на страничке больше 100 (!) разных датасетов, в основном структурированных дампов разных сайтов. Датасеты как текстовые, так и картиночные. Последний обновлённый датасет — дамп русских интернет-форумов.

https://huggingface.co/inkoziev
Датасеты Ильи Козиева, в основном про ударения и стихи, но не только. Илья много занимался генераторами стихов, что мне очень близко. Его ЖЖ, Гитхаб. Последний обновлённый датасет про ударения в омографах.

https://huggingface.co/Vikhrmodels
Разные вихрёвские SFT/RL датасеты для русского. Последний обновлённый датасет — сборник задач матетматических олимпиад разного уровня.

https://huggingface.co/mizinovmv
В основном русские переводные версии английских датасетов. У многих датасетов нет описания.

https://huggingface.co/attn-signs
SFT/RL датасеты для русского с фокусом на reasoning. По-моему маловато подробностей про их сбор, но всё равно может быть полезно.

https://huggingface.co/kristaller486
Переводные SFT датасеты для русского от подписчика. Его канал: @krists
13.04.2025, 17:14
t.me/senior_augur/433
SE
Старший Авгур
5 448 подписчиков
52
21
2.4 k
Сегодня и вчера чуть-чуть поработал над ботом (@saiga_igusev_bot). Список изменений:
- Добавил разных новых моделей (Grok 3, Llama 4, Gemini 2.5 Pro).
- Убрал старые нативные вызовы инструментов, заменил их на CodeAct из smolagents. Доступно не для всех моделей, включается через /tools.
- Заменил парсилку PDF на pypdf.
- Ну и всякого по мелочи, отрефакторил конфиги, например.

Всё жду, когда OpenAI новую генерилку картинок в API выложат, её тоже сразу воткну.
13.04.2025, 00:53
t.me/senior_augur/432
SE
Старший Авгур
5 448 подписчиков
18
22
1.7 k
https://www.youtube.com/watch?v=_2C2CNmK7dQ

Позапрошлый пост был на моменте с 2:35. Совпадения пугающие, у меня даже те же самые наушники.
8.04.2025, 22:33
t.me/senior_augur/431
SE
Старший Авгур
5 448 подписчиков
58
5
1.8 k
На ARR в итоге из 3 рецензентов хоть что-то мне ответил только один! И то, вчера, в последний день дискуссии. И как-то так опять случилось, что ответил именно тот, кто поставил самую высокую оценку из них троих. По сравнению с ICLR конструктивных замечаний гораздо меньше, может и потому, что статья стала лучше. В итоге я сделал мелкие правки текста и один дополнительный эксперимент (проверка того, что сильнее влияет на результаты: выбор судьи или выбор допрашивающего).

Статью и без конференции уже начали цитировать (аж 3 раза пока), поэтому и фиг бы с ними. Я пока не очень понимаю, куда ещё раз подаваться, так далеко я не заглядывал. В текущем виде статья уже выглядит немного старенькой с точки зрения проверяемых и используемых моделей.

Материала и техник для 3 версии бенча я набрал довольно много, только не уверен, что хочу этим заниматься.
4.04.2025, 17:11
t.me/senior_augur/430
SE
Старший Авгур
5 448 подписчиков
124
48
2.5 k
Я тут тоже решил попробовать этот ваш вайб-кодинг, поставил Курсор, взял один готовый фронтендерский проект и попробовал прикрутить к нему пару LLM-фичей. И знаете что?

Я давно не чувствовал себя настолько несчастным при программировании. Основной моей эмоцией было раздражение на эту "тупую фигню". С десяток раз я попадал в цикл дебага моделью, в которых она раз за разом делала неправильные исправления. В итоге мне всё равно приходилось вмешиваться и разбираться самому, уже потратив кучу времени и токенов. И как же я отвык от IDE... Я сейчас, наверное, прозвучу как старик, но все эти окошки, уведомления, менюшки и загрузки после чистого vim'а смотрятся абсолютно убого и сильно отвлекают.

Правда, в каких-то кейсах оно нормально работало. Например, когда мне понадобилось сделать сбоку маленький сервер с нуля. Вот там да, всё чисто, никаких проблем. Но правки в существующем большом проекте — это ад, потому что я привык понимать всё, а не делегировать понимание.
3.04.2025, 22:58
t.me/senior_augur/429
SE
Старший Авгур
5 448 подписчиков
44
10
2.0 k
Кстати, впервые открытая модель на первом месте в ПингПонге. Вероятно до тех пор, пока Gemini 2.5 Pro не оценен.
30.03.2025, 14:42
t.me/senior_augur/428
SE
Старший Авгур
5 448 подписчиков
52
7
1.8 k
Вышли рецензии на ARR для ПингПонга, всё довольно плохо (1.5, 2, 2.5). Сейчас с ходу пишу ответы, есть конструктивные вещи по тексту, но к сожалению (или к счастью) не по методологии.

А ещё см. скриншот. Вот откуда рецензент узнал, что автор один? Double-blind, ага.
28.03.2025, 13:15
t.me/senior_augur/427
SE
Старший Авгур
5 448 подписчиков
90
66
2.5 k
Всё, что нужно знать об умении людей предсказывать будущее.
25.03.2025, 23:33
t.me/senior_augur/426
SE
Старший Авгур
5 448 подписчиков
103
97
3.1 k
Что с лицом, Сбер? Моё почтение команде llmarena.ru, видимо им-то денег хватило на прогоны нормальных моделей на Мере.

P.S. Почему мне вообще есть дело до Меры? Посмотрите на эти пресс-релизы: https://t.me/rbc_news/108121, https://t.me/exploitex/23425
22.03.2025, 13:48
t.me/senior_augur/425
SE
Старший Авгур
5 448 подписчиков
64
5
2.2 k
Если что, вопрос с первым PR решился после моего нытья одному из двух мейнтейнеров в личку в Твиттере.
За это время ещё наткунлся на баг в телеметрии, его фикс тоже влили.
Второй PR так и висит, ну и пусть, там не баг, там фича.
Так что теперь у меня 5 коммитов, что ставит меня в топ-8 контрибьютеров, приятно.

Я в одном чатике уже шутил, что я иногда чувствую себя единственным юзером smolagents...

Кроме того, одна из фичей для holosophos оказалась неожиданно хорошей. Я про покомандные таймауты, которые задаются самой языковой моделью. Вопрос с бесконечными циклами решился, и модельки теперь сами фиксят все баги подобного рода.
22.03.2025, 01:44
t.me/senior_augur/424
SE
Старший Авгур
5 448 подписчиков
47
21
1.9 k
А ещё у меня жёстко горит от smolagents. Уже больше 10 дней висит мой PR на 2 строчки, который бы экономил 10-20% токенов для Соннетов и делал бы их чуть лучше. Мелочь, правда? Подумаешь, лучшая агентская модель нормально с вашим фреймворком не работает.

И второй PR про добавление обработки картинок в CodeAct. Тоже абсолютно бесполезный, да?

Я ведь там не один такой. 100+ открытых PR, и всего полтора человека на поддержке.
19.03.2025, 22:54
t.me/senior_augur/423
SE
Старший Авгур
5 448 подписчиков
50
14
2.1 k
Пару дней назад я думал, что вот сейчас решу задачу и забабахаю пост про это в канал. И таких моментов было несколько. Но знаете что? До сих пор ни одна модель не справилась. Я пробовал o3-mini, o1, Sonnet 3.7, Sonnet 3.5, последнюю Гемму. Ничего не работает.

Задача-то в сущности очень простая: сделать то, что я сделал вот в этом посте. Воспроизвести маленький эксперимент на игрушечных графах на базе существующей статьи. Но раз за разом, раз за разом у моделей ничего не получается. Топ ошибок:
- Ничего не делать и просто выдать рандомные чиселки (см. пост выше). А вдруг прокатит?
- Облажаться со структурой графов различными способами: 4 вершины в пути вместо 5, пути не из центра, повторяющиеся значения в вершинах, внезапные дополнительные ветки, 7 рёбер вместо 8. Да они исполняют тысячи способов облажаться, о которых я даже подумать не мог и не могу 😣
- Не открывать статью и взять гиперпараметры с потолка. Ну а что? В промпте же не написано, что нужно взять гиперпараметры из статьи? ИЛИ НАПИСАНО?
- Накодить бесконечные циклы. Вот это моё самое любимое, потому что никак не отлавливаемое и тратящее деньги (потому что арендованное железо). Я уже сделал глобальный таймер на 12 часов, плюс думаю дать моделям возможность самим ставить таймеры на команды.

В итоге из промпта на 3 предложения выросла огромная простыня:

There is a paper: 'The pitfalls of next-token prediction'. The task from there is to learn a path from a central node to a leaf node in a star-like graph with one central node and many branches of the same length. Reproduce the experiment from this paper with directed G2,5 graphs (2 branches, path length is 5). Train GPT-2 from scratch in two settings: 1) direct autoregressive training 2) autoregressive training on the reverse paths (when the graph is the same, but the path is written from leaf to center).

Input example (list of directed edges + central and leaf nodes): '5 7 | 6 1 | 7 4 | 1 8 | 6 5 | 4 0 | 2 3 | 8 2 6 3'. The central node is 6, and the leaf node is 3. Central and leaf nodes are a part of the input after . Output is '6 1 8 2 3', and in case of a reverese path it is '3 2 8 1 6'. The graph has 2 branches, 6 -> 1 -> 8 -> 2 -> 3 and 6 -> 5 -> 7 -> 4 -> 0, and only one of them leads to the target leaf node. So the full sample is: '5 7 | 6 1 | 7 4 | 1 8 | 6 5 | 4 0 | 2 3 | 8 2 6 3 3 2 8 1 6' in the case of the reverse path. Use 51 unque node values (0-50). Check that:
1) generation scripts produce the provided format of samples
2) the number of edges is 8
3) the central and leaf nodes are provided in the input
4) node values are unique across all 9 nodes
5) path length is 5
6) there are two pathes from the central node
7) path is from a center to one of the two final leaves

Use custom tokenization where is node value is a token.

Train on 50000 samples, validate on 500 samples, run at least 20 epochs. Report losses (only for path completion after ) of two models as a JSON in a following format: {"direct_eval_loss": ..., "reverse_eval_loss": ...}.

Use the same experiment hyperparameters (learning rate, dropout, hidden size) as in the paper!


Но оно всё ещё не работает и фейлится в абсолютно неожиданных местах! Я продолжаю отлаживать промпты и инструменты, но уже стало немного грустно.
19.03.2025, 22:40
t.me/senior_augur/422
SE
Старший Авгур
5 448 подписчиков
95
31
2.2 k
Как же у меня горит на o3-mini. Знаете, что объединяет все запуски со скриншотов? Все метрики там нарисованные.

Агенту поступает на вход задача воспроизвести эксперимент. И он такой "I will now simulate the complete experimental procedure as described". То есть не проведу эксперименты, а смоделирую. В голове, то есть (или что там у него вместо головы). Мысленные эксперименты, ага.
15.03.2025, 16:08
t.me/senior_augur/421
SE
Старший Авгур
5 448 подписчиков
32
13
1.6 k
https://blog.google/technology/developers/gemma-3/
https://cohere.com/blog/command-a
https://allenai.org/blog/olmo2-32B

Command A по первым тестам так себе, от OLMO в принципе не жду хорошего (она всё равно не про качество), а вот Gemma 🔥🔥🔥
Тюнить Джемму не тороплюсь, там всё равно в Unsloth не покладая рук исправляют баги, да и может и не надо её тюнить.
С запуском в VLLM тоже есть проблемы, судя по тикетам, да и на OpenRouter пока только один провайдер (его и использую).
Оценки на ПингПонге будут завтра.
14.03.2025, 02:02
t.me/senior_augur/420
SE
Старший Авгур
5 448 подписчиков
Репост
34
948
13.03.2025, 00:28
t.me/senior_augur/416
SE
Старший Авгур
5 448 подписчиков
Репост
34
955
13.03.2025, 00:28
t.me/senior_augur/418
SE
Старший Авгур
5 448 подписчиков
Репост
34
947
13.03.2025, 00:28
t.me/senior_augur/417
SE
Старший Авгур
5 448 подписчиков
Репост
34
957
13.03.2025, 00:28
t.me/senior_augur/419
SE
Старший Авгур
5 448 подписчиков
Репост
31
34
945
Новый Gemini Flash 2.0 теперь умеет редактировать картинки текстом – видимо OpenAI правда эту же фичу скоро докатит

Я поигрался и такие выводы: пока она галлюцинирует и качество картинок на выходе не очень, но это временно и верное направление исследований – не очень понимаю что будет делать Adobe с фотошопом через пару лет 😮

Поиграться можно тут выбрав Gemini 2.0 Flash experimental (это бесплатно)

Оно умеет:
– реставрировать фото (немного)
– колоризировать (пока плохо)
– копировать текстуры на объекты
– оно пока не умеет переводить картинки, и часто само не знает с чем оно работает – с текстом или картинкой, часто путается
– увеличивать картинки оно пока не может нормально
– оно умеет продолжать последовательность картинок и даже сохранять внешность персонажа
– Оно умеет неплохо редактировать общий муд сцены

В общем, очень клевое направление – Google AI молодцы
13.03.2025, 00:28
t.me/senior_augur/412
SE
Старший Авгур
5 448 подписчиков
Репост
34
943
13.03.2025, 00:28
t.me/senior_augur/414
SE
Старший Авгур
5 448 подписчиков
Репост
34
941
13.03.2025, 00:28
t.me/senior_augur/413
SE
Старший Авгур
5 448 подписчиков
Репост
34
946
13.03.2025, 00:28
t.me/senior_augur/415
SE
Старший Авгур
5 448 подписчиков
Репост
13
31
1.5 k
AI Scientist-v2 от Sakana (первую версию упоминали тут) создал статью, которая прошла пир ревью на воркшоп ICLR.

https://sakana.ai/ai-scientist-first-publication/

We looked at the generated papers and submitted those we thought were the top 3 (factoring in diversity and quality—We conducted our own detailed analysis of the 3 papers, please read on in our analysis section). Of the 3 papers submitted, two papers did not meet the bar for acceptance. One paper received an average score of 6.25, ranking approximately 45% of all submissions. These scores are higher than many other accepted human-written papers at the workshop, placing the paper above the average acceptance threshold. Specifically, the scores were:

* Rating: 6: Marginally above acceptance threshold
* Rating: 7: Good paper, accept
* Rating: 6: Marginally above acceptance threshold
* Rating: 6: Marginally above acceptance threshold

Ну, можно было смеяться над ошибками и косяками ранних моделей, можно и продолжать это делать, но тренд неостановим.
12.03.2025, 11:42
t.me/senior_augur/411
SE
Старший Авгур
5 448 подписчиков
31
10
2.0 k
Сам я купил Factorio аж 10 лет назад, с тех пор это одна из моих любимых игр.

В целом, игра без жуков должна быть не очень сложно автоматизируема, поэтому я бы ожидал быстрого прогресса по бенчу.
11.03.2025, 19:28
t.me/senior_augur/410
SE
Старший Авгур
5 448 подписчиков
Репост
11
40
1.9 k
Show HN: Factorio Learning Environment – Agents Build Factories (🔥 Score: 159+ in 2 hours)

Link: https://readhacker.news/s/6qKug
Comments: https://readhacker.news/c/6qKug

I'm Jack, and I'm excited to share a project that has channeled my Factorio addiction recently: the Factorio Learning Environment (FLE).
FLE is an open-source framework for developing and evaluating LLM agents in Factorio. It provides a controlled environment where AI models can attempt complex automation, resource management, and optimisation tasks in a grounded world with meaningful constraints.
A critical advantage of Factorio as a benchmark is its unbounded nature. Unlike many evals that are quickly saturated by newer models, Factorio's geometric complexity scaling means it won't be "solved" in the next 6 months (or possibly even years). This allows us to meaningfully compare models by the order-of-magnitude of resources they can produce - creating a benchmark with longevity.
The project began 18 months ago after years of playing Factorio, recognising its potential as an AI research testbed. A few months ago, our team (myself, Akbir, and Mart) came together to create a benchmark that tests agent capabilities in spatial reasoning and long-term planning.
Two technical innovations drove this project forward: First, we discovered that piping Lua into the Factorio console over TCP enables running (almost) arbitrary code without directly modding the game. Second, we developed a first-class Python API that wraps these Lua programs to provide a clean, type-hinted interface for AI agents to interact with Factorio through familiar programming paradigms.
Agents interact with FLE through a REPL pattern:
1. They observe the world (seeing the output of their last action)
2. Generate Python code to perform their next action
3. Receive detailed feedback (including exceptions and stdout)
We provide two main evaluation settings:
- Lab-play: 24 structured tasks with fixed resources
- Open-play: An unbounded task of building the largest possible factory on a procedurally generated map
We found that while LLMs show promising short-horizon skills, they struggle with spatial reasoning in constrained environments. They can discover basic automation strategies (like electric-powered drilling) but fail to achieve more complex automation (like electronic circuit manufacturing). Claude Sonnet 3.5 is currently the best model (by a significant margin).
The code is available at https://github.com/JackHopkins/factorio-learning-environment.
You'll need:
- Factorio (version 1.1.110)
- Docker
- Python 3.10+
The README contains detailed installation instructions and examples of how to run evaluations with different LLM agents.
We would love to hear your thoughts and see what others can do with this framework!
11.03.2025, 19:26
t.me/senior_augur/409
SE
Старший Авгур
5 448 подписчиков
126
91
2.8 k
Сейчас был эпизод из передачи "В мире агентов".

Есть у меня агент-начальник и два его подчинённых, библиотекарь и MLE. Задача — обучить CIFAR-10 минимум на 85% точности. Решается за 10 минут при наличии GPU. Модель: Claude 3.7 Sonnet.

Сначала всё идёт хорошо, начальник делегирует задачу MLE подчинённому, тот исследует датасет, пишет код, код запускается, модель обучается, метрики возвращаются, и даже 85%+. Казалось бы, всё хорошо. Но чу! Начальник не верит результатам и хочет перепроверить всё сам. Для этого он тоже пишет код, пытается его запустить, что несколько затруднительно без библиотек и GPU. После пары беуспешных попыток он поручает независимо проверить результаты... да-да, тому же подчиненному.
11.03.2025, 01:25
t.me/senior_augur/408
SE
Старший Авгур
5 448 подписчиков
71
180
11 k
Выложил Сайгу на базе YandexGPT-5 Lite.

HF: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b
Кванты: https://huggingface.co/IlyaGusev/saiga_yandexgpt_8b_gguf

В полтора раза меньше Немо, лучше токенизация, а качество примерно то же: на ПингПонге чуть лучше Немо, на Арене чуть хуже.

Модель SFT + RL. В SFT долил диалогов из бота за последние полгода. RL делал с Вихрвёским SMPO, он гораздо стабильнее SimPO.

Визуально всё в порядке, в ранних версиях была проблема с повторами, но сейчас вроде всё хорошо.

Лицензия только фиговая 😭
4.03.2025, 22:06
t.me/senior_augur/407
SE
Старший Авгур
5 448 подписчиков
88
48
2.5 k
Я потихоньку двигаюсь к автоматическому исследователю.
Сегодня на повестке дня MLE solver, штука, которая должна по описанию задачи доставать датасеты, учить модельки и измерять метрики.
Но тут такое дело... У меня нет своих GPU. Да даже если бы и были, привязываться к конкретной инфре не очень хочется.

Поэтому я решил привязаться к чужой инфре 😳
Изначально я не очень понимал, как это всё должно быть устроено. Потыкался в Python SDK Runpod'а, но выяснилось, что они не поддерживают сбор логов с подов через API. Потыкался в Python SDK Vast.ai, но там тоже ничего толкового не получилось.

Но пока я тыкался, я понял, что это мне и не нужно. Что я делаю теперь:
1. Инструменты для LLM: функции remote_bash и remote_text_editor. Они позволяют исполнять команды на арендованном GPU и редактировать текстовые файлики там же.
2. Под капотом при первом вызове одной из этих функций арендуется железка. К ней пробрасывается ssh ключ, и все последующие команды выполняются через ssh и rsync.
3. Получившаяся конструкция более-менее независима от конкретного облака. Для LLM ничем не отличается от локального выполнения с точки зрения интерфейсов.
4. При убийстве скрипта любым способом арендованная машина тоже убивается.

Пока я в процессе дописывания, но как будто бы оно работает.
3.03.2025, 21:56
t.me/senior_augur/406
SE
Старший Авгур
5 448 подписчиков
81
33
2.0 k
Ну что сказать по поводу GPT 4.5... Для своей цены это отвратительная модель. Стой она как Соннет, в ней бы был смысл. А так есть ноль ситуаций, где стоило бы пользоваться 4.5, а не Соннетом.
28.02.2025, 11:24
t.me/senior_augur/405
SE
Старший Авгур
5 448 подписчиков
96
41
2.6 k
gpt-4.5-preview сама не верит в цену gpt-4.5-preview
28.02.2025, 00:19
t.me/senior_augur/404
SE
Старший Авгур
5 448 подписчиков
Репост
80
30
2.0 k
27.02.2025, 16:15
t.me/senior_augur/403
SE
Старший Авгур
5 448 подписчиков
Репост
65
110
1.5 k
Yandex gpt5 8b вышла в opensource, в отличие от гигачата это llamalike, те она будет запускаться на любом ведре.

По метрикам лучше/бьёт llama3, qwen2.5 7b

Hf
25.02.2025, 11:02
t.me/senior_augur/402
SE
Старший Авгур
5 448 подписчиков
36
17
2.2 k
Новый Соннет тоже решает 9 из 9 вопросов, но вы посмотрите на это количество токенов...

Это, конечно, связано с текущим промптом, в нём поощряется полнота. Но прошлый Соннет на том же промпте тратил в 3 раза меньше токенов.
25.02.2025, 00:16
t.me/senior_augur/401
SE
Старший Авгур
5 448 подписчиков
Репост
1
1
54
24.02.2025, 11:14
t.me/senior_augur/400
SE
Старший Авгур
5 448 подписчиков
49
96
1.9 k
Последнее время с одним товарищем занимаемся инструментом для написания научных статей. Начало тут.
Всё ещё хочется нормально зарешать поиск литературы, и в качестве теста я использую 9 вопросов из разных источников. Из этих 9 вопросов нет ни одного, который бы нормально не гуглился. Все они при везении решаются в один поисковый запрос. Но везёт редко, и иногда из-за этого нужно несколько шагов. Как минимум для 3 вопросов есть серьёзные отвлекающие мишени. Например, в вопросе про спекулятивную генерацию LayerSkip — это неправильный ответ, но именно он обычно забивает первую страницу поисковой выдачи.

Пара технических вещей:
- Smolagents — основной фреймворк, который я использую, и у него даже сейчас есть видимые глазу косяки. Я уже несколько раз фиксил там баги. Все промпты я переписал, сейчас в них нет практически ни одной оригинальной строчки. При этом глобально пользоваться им приятно.
- Использую self-hosted Arize Phoenix для отображения траекторий. Инструмент очень нравится, как раз он на картинке.

Выводы на текущий момент:
- Траектории очень важно читать, иногда модели "срезают", и это надо исправлять. Например, o3-mini для 2 вопросов заранее знала ответ. Вот только для одного из вопросов ответ был неправильный...
- Глобальный поиск в интернете гораздо важнее локального поиска в конкретных источниках. Некоторые вопросы с ним решаются в один ход вместо 3-4 ходов.
- Соннет — единственная из пока протестированных моделей, которая находит правильные ответы на все 9 вопросов сразу. Но стоит она примерно по 1$ на вопрос.
- o3-mini неплоха для своей маленькой цены (меньше 10 центов на запрос), все основные эксперименты я пока провожу на ней. Стабильно выдаёт 7-8 правильных ответов.
23.02.2025, 01:52
t.me/senior_augur/399
SE
Старший Авгур
5 448 подписчиков
Репост
19
39
791
🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.  

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...). 
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0
21.02.2025, 13:37
t.me/senior_augur/398
SE
Старший Авгур
5 448 подписчиков
Репост
32
35
1.3 k
Google вчера рассказал про свой новый тул «co-scientists», который пока доступен только ученым и это лучшая реклама инструмента:

Команда из Лондона исследовала почему определённые антибиотико-устойчивые «супербактерии» со временем приобретают устойчивость. Когда профессор загрузил свою неопубликованную гипотезу в новый инструмент от Google — тул не только за 48 часов воспроизвел основную гипотезу, над которой работала команда в течение десятилетия, но и предложил ещё четыре дополнительные обоснованные версии, одна из которых сейчас изучается

Работает он похоже на Deep research, просто пару дней ☕️

e/acc 🚀
21.02.2025, 00:58
t.me/senior_augur/397
SE
Старший Авгур
5 448 подписчиков
73
38
1.7 k
Ура! закончился конкурс генерации мемов, AI Meme Arena!
Я занял второе место и заработал 2000$, как в общем-то и предполагал на протяжении всей последней недели.
Изначальное решение я сбацал на коленке за полтора часа, и с точки зрения кода оно менялось не очень сильно.

Краткое описание решения
- Memegen для наложения подписей на картинку (да, я настолько ленив).
- Видео-шаблоны только с одним форматом подписей: текст в чёрной части сверху.
- Claude 3.5 Sonnet 2024-10-22 в качестве модели.
- Случайный выбор 4 видео-шаблонов и 2 картиночных шаблонов в качестве кандидатов.
- Для каждого шаблона 2 примера заполнения подписей, плюс текстовое описание.
- Модель генерирует 3 варианта мемов, в том же запросе выбирает наилучший вариант с объяснением.
- В течение всего соревнования я отсекал шаблоны с плохими винрейтами и доливал новые. В конце осталось около 50 шаблонов.
- Основные источники шаблонов: стандартная библиотека Memegen, канал @membeztexta и шаблоны других участников.

Почему не первое место?
Во-первых, изначальная версия системы была очень низко, где-то на 6-7 месте, и собрала кучу проигранных битв, что критично в текущей системе голосования. Было это связано с форматом выхода: я генерировал напрямую URL для Memegen, что было ошибкой.
Во-вторых, система на первом месте отбирала шаблон по текстовым эмбеддингам, у меня же это тупо random.choice, который иногда возвращает не очень подходящий набор шаблонов. Имхо, вот это было не очень критично, потому что часто так было только смешнее, Соннету приходилось изворачиваться.

С точки зрения накруток всё по-моему было не очень чисто, но значительную часть в конце убрали.
Было весело, рад за @hikonon, который заслуженно занял первое место.

Код: https://github.com/IlyaGusev/memetron3000
Демку на неделе добавлю в бота.
18.02.2025, 18:28
t.me/senior_augur/396
SE
Старший Авгур
5 448 подписчиков
32
25
1.9 k
Я ещё иногда на работе работу работаю.

Пост про использование Медузы, про нашу коллаборацию с AWS ProServe: https://aws.amazon.com/blogs/machine-learning/achieve-2x-speed-up-in-llm-inference-with-medusa-1-on-amazon-sagemaker-ai/
16.02.2025, 15:54
t.me/senior_augur/395
SE
Старший Авгур
5 448 подписчиков
64
97
2.4 k
Запись эфира от 5 февраля со всеми ребятами: мной, Сашей (Вихрь), Мишей (RuAdapt) и Гришей (GigaChat).

https://www.youtube.com/watch?v=MvRSroMG5Y0
15.02.2025, 15:35
t.me/senior_augur/394
SE
Старший Авгур
5 448 подписчиков
23
73
1.7 k
И вдогонку микро-пост про источники.
Я теперь вместе с Daily Papers и всякими каналами читаю alphaxiv.org, там все хайповые вещи есть, и какое-то обсуждение статей. Хайповые по делу или нет — это уже другой вопрос. За рекламу сайта мне не платили (а могли бы).
15.02.2025, 02:30
t.me/senior_augur/393
SE
Старший Авгур
5 448 подписчиков
30
29
1.7 k
Статьи-близнецы, которые вышли с разницей в неделю


s1: Simple test-time scaling
Статья: https://arxiv.org/abs/2501.19393
Код: https://github.com/simplescaling/s1

SFT на 1000 примерах про математику и программирование с цепочками рассуждений поверх Qwen 2.5 32B достаточно для жёсткого буста модели на AIME и GPQA Diamond.

Примеры отбирали из NuminaMATH, AIME прошлых лет, OlympicArena, OmniMath, AGIEval и двух своих датасетов (из экзамена на поступление на PhD в Стэнфорд и из собесов для квантов). Отбирали по качеству, сложности, и из разных категорий. Из 1000 примеров: 109 на геометрию, 98 на теорию чисел, 75 на комбинаторику, 41 на биологию. Остальное раскидано по разным другим областям математики и естественных наук (в основном физики). Ответы и цепочки спёрли у старшого брата, Gemini Flash Thinking, а позже у R1. Утечки тест сетов проверяли n-граммами.

Ещё одна прикольная штука: для увеличения длины генерации токен конца рассуждений принудительно заменяется на "Wait", а для сокращения принудительно вставляется "Final Answer:”. И вот такое принудительное увеличение длины совсем чуть-чуть растит метрики. В основную табличку интервалы, как водится, не завезли, прирост копеечный. Как контроль длины норм, но роста метрик по сравнению со стандартной генерацией там особо не видно.

В итоге по метрикам всё гораздо лучше оригинального Квена, на уровне o1-preview и QwQ. Код реально существует, включая пайплайн отбора данных.


LIMO: Less is More for Reasoning
Статья: https://arxiv.org/abs/2502.03387
Код: https://github.com/GAIR-NLP/LIMO

Всё то же самое! Тоже SFT, тоже почти 1к примеров, тоже тюн Qwen 2.5 32B, почти те же датасеты 😂

Основное отличие от s1 — от текста хочется блевать. 13 страниц основного текста! Первые 5 страниц просто ни о чём, как будто их языковая модель генерировала, и есть у меня ощущение, что даже сами авторы их не читали.

Примеры отбирали из NuminaMATH, AIME прошлых лет, MATH и каких-то других источников. Утверждается, что откуда-то набрались десятки миллионов задач 🤔
Процесс отбора примерно такой же как в s1, но ответы и цепочки спёрты либо из оригинальных решений, либо из ответов R1. Утверждается, что ответы отсматривались авторами вручную 🤣

На AIME24 они чуть хуже s1, на MATH500 повыше, но они на MATH и учились...

Короче, это китайская подделка s1. Не удивлюсь, если они за эту неделю с выхода s1 статью и написали. Удачи найти подробности отбора примеров в коде: их там нет. Более того, в их табличке в README у s1 нарисованы заниженные цифры 😁


Общий вывод:
Так-то круто, что SFT работает, и в предобучении уже всё на самом деле есть. s1 выглядит вполне воспроизводимой, хоть бы и для русского, рекомендую. Китайскую подделку не рекомендую.
15.02.2025, 01:53
t.me/senior_augur/392
SE
Старший Авгур
5 448 подписчиков
Репост
64
69
1.3 k
⚡️ QVikhr-2.5-1.5B-Instruct-r — Наша новая компактная llm теперь еще и с GRPO этапом. За счет GRPO это теперь первая reasoning модель на русском языке с честным RL .


🔗 Карточка модели:
https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-r
11.02.2025, 19:01
t.me/senior_augur/391
SE
Старший Авгур
5 448 подписчиков
44
17
1.8 k
Мем, сгенерированный по предыдущему сообщению.
7.02.2025, 12:53
t.me/senior_augur/390
SE
Старший Авгур
5 448 подписчиков
24
34
1.9 k
Призываю всех пойти погенерить и пооценивать мемы в @AIMemeArenaBot.
За себя голосовать не призываю, там всё равно метки скрытые, но в свою систему верю.
Голосуй, или я проиграю 😁
7.02.2025, 12:49
t.me/senior_augur/389
SE
Старший Авгур
5 448 подписчиков
38
67
2.6 k
Бенч 10/10, спасибо Игорю.
http://platinum-bench.csail.mit.edu/

Люди собрали чуть-чуть простых задач с мега-супер-пупер правильными ответами, и оценивают стабильность моделек.
В такой постановке даже древнющий Navigate из BigBench'а внезапно становится хорошо разделяющей задачей.
Статью можно не читать, можно просто поштырить в ошибки.
6.02.2025, 22:48
t.me/senior_augur/388
SE
Старший Авгур
5 448 подписчиков
1
1
528
Уже началось!
5.02.2025, 19:06
t.me/senior_augur/387
SE
Старший Авгур
5 448 подписчиков
Репост
1
8
303
30 мин до Open Talks Special – раскрываем карты!

🦇 Наш секретный гость:
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].

Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.

✏️ Оставляй вопросы в комментариях к этому посту!

#OpenTalks
#AITalentHub #ITMO #NapoleonIT
5.02.2025, 19:06
t.me/senior_augur/386
SE
Старший Авгур
5 448 подписчиков
Репост
24
48
1.6 k
Классный новый алгоритм на подходе:
Даем на вход картинку, аудио и модель сама оживляет персонажа

Кода пока нет, сайт проекта тут:
https://omnihuman-lab.github.io/

Жду не дождусь чтобы исторические фото помучать
5.02.2025, 17:55
t.me/senior_augur/385
SE
Старший Авгур
5 448 подписчиков
65
31
2.1 k
Читаю я эссе Уоррена Уивера 1949 года о машинном переводе (не спрашивайте, как так получилось), и что я вижу? Word2vec/MLM.
5.02.2025, 14:11
t.me/senior_augur/384
SE
Старший Авгур
5 448 подписчиков
35
20
2.3 k
Тут вот какое дело...

Пост — реклама smolagents. В реальности дела мягко говоря обстоят не так хорошо. Начиная со стоимости вот этого всего (легко тратится до 10$ на один вопрос), заканчивая длинным хвостом задач, которые вообще нормально агентами не решаются, хотя люди их решат за 5-10 минут. Я, конечно, экспериментировал со своими инструментами, а не с чужими, но инструменты из поста написаны скорее хуже, а не лучше.

Самая непобедимая проблема для меня пока — заставить агента читать все страницы выдачи, а не только первые 2-3. И желательно только в тех случаях, где это реально нужно.
5.02.2025, 00:27
t.me/senior_augur/383
SE
Старший Авгур
5 448 подписчиков
Репост
29
76
1.5 k
Ладно уже не смешно.

Hf выложили свой deepresearch на o1, c полностью открытым кодом, на Gaia выдает 55%(против 67% у openai)

Блог: huggingface.co/blog/open-deep-research
5.02.2025, 00:14
t.me/senior_augur/382
SE
Старший Авгур
5 448 подписчиков
Репост
42
34
1.1 k
⚡️ QVikhr-2.5-1.5B-Instruct-SMPO — Наша новая компактная llm теперь еще и с RLHF этапом. За счет RLHF получили качественный прирост по метрикам, а за счет размера гонять можно хоть на тостере!

🔗 Карточка модели: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO
🔗 GGUF: https://huggingface.co/Vikhrmodels/QVikhr-2.5-1.5B-Instruct-SMPO_GGUF
🔗 Презентация Preference Optimization: https://docs.google.com/presentation/d/1WDzavFCtCeF8A9i0-hyyE9e8N1f_ieijyGiS4N0sAGQ/edit?usp=sharing

Коллектив авторов: @LakoMoorDev @nlpwanderer
3.02.2025, 16:22
t.me/senior_augur/381
SE
Старший Авгур
5 448 подписчиков
131
147
2.8 k
Недавно я обратил внимание на один гениальный ход DeepSeek.

Про то, что при обучении модель училась предсказывать сразу несколько токенов, знают примерно все.

Про то, что для этого использовались не просто независимые головы (как в Медузе), а целые трансформерные слои, на вход которых подавались в том числе проекции с предыдущих шагов, знают все, кто читал статью. Там же написано, что они переиспользуют эти мини-трансформеры (MTP-модули) для инференса.

А вы знаете, сколько MTP модулей было выложено вместе с моделью?
- ОДИН.
Источник.

Таким образом, для себя они, вероятно, оставили 4-5 MTP-модулей, а наружу выложили только 1. То есть, они могут инферить модель в 2-3 раза быстрее, чем любые другие провайдеры. Вы конечно можете дообучить больше MTP модулей или вообще перейти на Медузу, но это потребует нетривиальных усилий. В итоге модель-то открытая, но конкуренты всё равно в дураках.
2.02.2025, 21:51
t.me/senior_augur/380
SE
Старший Авгур
5 448 подписчиков
Репост
164
148
2.0 k
На канале «Россия-1» поделились новостью о том, что китайский DeepSeek был создан на основе советского кода 1985 года.

«Не буду лукавить, наш искусственный интеллект был создан на базе советских разработок, а именно — системы ОГАС академика Глушкова. Без неё мы бы никогда не догнали американцев с их ChatGPT», — сказал Лян Вэньфэн, основатель DeepSeek

Всё бы ничего, да только это новость от сатирического ИА «Панорама»
2.02.2025, 14:16
t.me/senior_augur/379
SE
Старший Авгур
5 448 подписчиков
Репост
46
47
964
🔸 Open Talks Special: Лидеры русскоязычного open source LLM в одном эфире.

5 февраля в 19:00 собираем ключевых независимых разработчиков опенсорсных русскоязычных LLM и говорим о том, что волнует AI-сообщество прямо сейчас:

➡️ Как создаются русскоязычные LLM и с какими вызовами сталкиваются их разработчики?

➡️Что ждет опенсорсные AI-решения в будущем?

➡️ Как DeepSeek меняет правила игры?

Спикеры:

🎤 Михаил Тихомиров – научный сотрудник НИВЦ МГУ, занимается адаптацией мультиязычных LLM, создатель Ruadapt➡️Топовая модель показывает 92 балла на балла на Ru Arena General

🎤 Илья Гусев – автор Сайги ➡️одной из самых скачиваемых русскоязычных моделей на HF, а также role-play бенчмарка PingPong

🎤 Александр Николич – один из авторов Rudalle и Kandinsky, создатель Vikhr models ➡️ одни из лучших моделей на русском языке до 20B параметров, один из самых популярных бенчмарков

🔸 Проведет эфир Павел Подкорытов, сооснователь AI Talent Hub и CEO Napoleon IT.

🤔 Не увидел важного вопроса в анонсе?

➡️ Регистрируйся и задай свой вопрос экспертам!

Приходи! Без тебя – не то 💘

#OpenTalks
#AITalentHub #ITMO #NapoleonIT
31.01.2025, 18:42
t.me/senior_augur/378
SE
Старший Авгур
5 448 подписчиков
26
28
1.9 k
https://mistral.ai/news/mistral-small-3/
30.01.2025, 17:24
t.me/senior_augur/377
SE
Старший Авгур
5 448 подписчиков
Репост
58
61
1.8 k
🥁🥁 🥁
А вот и наш первый выпуск!
Говорим Про LLM c Ильёй Гусевым, затронем темы:
- что сейчас есть интересного из моделей на русском;
- как померить что модель крутая и как все хакают эти метрики;
- доисторические технологии, как генерировали тексты до 2020х годов;
- можно ли запустить ламу на чайнике, холодильнике и другой кухонной утвари;
- когда будет AGI и пора ли подыскивать другую работу;
- кого слушать и куда смотреть, чтобы ничего не пропустить.

Также подписывайтесь на канал Ильи, он прикольный: @senior_augur

N.B.
Мы записывали выпуск до шумихи с DeepSeek, но такое пропустить нельзя, поэтому у нас скоро выйдет бонус эпизод.
И на этом с LLM закончим, честно-честно 😉


Spotify | Яндекс.Музыка
30.01.2025, 16:54
t.me/senior_augur/376
SE
Старший Авгур
5 448 подписчиков
52
42
2.3 k
О стоимости Deepseek v3

- Llama 3 70B, 15T токенов, 6.4M H100 часов, примерно 16M$. Источник.
- Deepseek 67B, 2T токенов, 600K H800 часов, примерно 1.2M$. Источник 1, источник 2.
- Deepseek v2 236B MoE, 21B active, 8T токенов, 1.4M H800 часов, примерно 2.8M$. Источник.
- Deepseek v3 671B MoE, 37B active, 15T токенов, 2.8M H800 часов, примерно 5.6M$. Источник.

H800 оценена как 2$ в час, H100 как 2.5$ в час.
Качество моделей не сравнивается, цель была не в этом.
Кроме того, в этом сравнении нет утилизации карточек (спасибо Саше за этот комментарий).
(И второму Саше за указание на 8T токенов у v2).
Кроме того, очевидно, что это только одна попытка, в плохих случаях их может быть 10+ (см. например 13 попыток древнейшего OPT-175B).
Кроме того, очевидно, что это ничего не говорит о Deepseek R1.

Выводы:
- Deepseek каждый раз в 2 раза повышал бюджет.
- Deepseek v3 должен бы стоить в 2-3 раза дороже v2, но стоит столько же (в пересчёте на 1T токенов) из-за хороших инженеров.
- Llama гораздо дороже, но и гораздо древнее.
29.01.2025, 13:28
t.me/senior_augur/375
SE
Старший Авгур
5 448 подписчиков
56
15
2.1 k
Простите, что так мало постов, я просто размечаю мемы.
28.01.2025, 19:54
t.me/senior_augur/374
SE
Старший Авгур
5 448 подписчиков
Репост
36
113
921
В продолжение темы, Jay Alammar, у которого были прекрасные визуальные объяснения про работу трансформера, в сто раз лучшие оригинальной статьи, выпустил только что иллюстрированный DeepSeek-R1

https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
28.01.2025, 02:29
t.me/senior_augur/373
Результаты поиска ограничены до 100 публикаций.
Некоторые возможности доступны только премиум пользователям.
Необходимо оплатить подписку, чтобы пользоваться этим функционалом.
Фильтр
Тип публикаций
Хронология похожих публикаций:
Сначала новые
Похожие публикации не найдены
Сообщения
Найти похожие аватары
Каналы 0
Высокий
Название
Подписчики
По вашему запросу ничего не подошло