O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
Idade do canal
Criado
Linguagem
Russo
1.2%
ER (semana)
9.71%
ERRAR (semana)

Нейросети, искусство, мысли. Поехали!

Разрабатываю LLM и веду команды

chatGPT, GPT-3, GPT-4

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 97 resultados
RY
Kali Novskaya
17 111 assinantes
55
28
3.2 k
🌸Диалог 2025🌸
#nlp #про_nlp #nlp_papers

Небольшой пинг для подписчиков: сегодня началась конференция "Диалог", где ежегодно лингвистика и компьютерные методы объединяются, чтобы создать кросс-дисциплинарное пространство для русского языка, обсуждений и коллаборации в компьютерной лингвистике, NLP, корпусной лингвистике, психолингвистике, стилометрии и многих других дисциплинах.

Доклады идут сегодня, завтра и послезавтра.

🟣Послушать доклады можно тут: zoom (прямо сейчас начнется корпусная секция)
🟣Расписание:  https://dialogue-conf.org/program-2025/
23.04.2025, 17:15
t.me/rybolos_channel/1476
RY
Kali Novskaya
17 111 assinantes
31
3.8 k
19.04.2025, 13:32
t.me/rybolos_channel/1471
RY
Kali Novskaya
17 111 assinantes
16
3.7 k
19.04.2025, 13:32
t.me/rybolos_channel/1473
RY
Kali Novskaya
17 111 assinantes
14
3.7 k
19.04.2025, 13:32
t.me/rybolos_channel/1474
RY
Kali Novskaya
17 111 assinantes
14
3.7 k
19.04.2025, 13:32
t.me/rybolos_channel/1470
RY
Kali Novskaya
17 111 assinantes
28
4.7 k
19.04.2025, 13:32
t.me/rybolos_channel/1475
RY
Kali Novskaya
17 111 assinantes
12
3.7 k
19.04.2025, 13:32
t.me/rybolos_channel/1469
RY
Kali Novskaya
17 111 assinantes
29
3.7 k
19.04.2025, 13:32
t.me/rybolos_channel/1468
RY
Kali Novskaya
17 111 assinantes
24
3.7 k
19.04.2025, 13:32
t.me/rybolos_channel/1472
RY
Kali Novskaya
17 111 assinantes
13
3.7 k
19.04.2025, 13:32
t.me/rybolos_channel/1467
RY
Kali Novskaya
17 111 assinantes
99
22
3.8 k
Нужен духоподъемный мемотред! #шитпост
19.04.2025, 13:32
t.me/rybolos_channel/1466
RY
Kali Novskaya
17 111 assinantes
135
52
4.8 k
На днях ещё вышла (совершенно идиотская в своей очевидности) статья Fully Autonomous AI Agents Should Not be Developed.
Достаточно бесполезная с точки зрения выводов — должны или не должны, но обязательно будут, прогресс неостановим. Но в обзоре есть некоторое перечисление рисков агентов, на которые можно ссылаться.

Я считаю, что кто-то должен написать ответную статью с названием Fully Automated Luxury Gay Space Communism must be developed. Все предпосылки уже есть. #шитпост

🟣Arxiv https://arxiv.org/abs/2502.02649
18.04.2025, 15:05
t.me/rybolos_channel/1465
RY
Kali Novskaya
17 111 assinantes
58
120
4.4 k
🌸Неделя Научных агентов🌸
#nlp #про_nlp #nlp_papers

Последние две недели выдались особо интересными для агентов для ИИ и науки.
Как обычно, публикую небольшую подборку. 

🌸Ассистент AlphaXiv

Совершенно незаменимая вещь для организации статей, теперь ещё и с Deep Research: любую статью с архива можно добавить в свою подборку, поставит лайк, начать обсуждение, а так же сделать блог пост из статьи. Можно экспортировать все свои статьи и сразу сделать краткую выжимку. Если ещё и комментарии оставлять внятные, можно приблизить Arxiv к Openreview.
🟣https://www.alphaxiv.org/explore

🌸Больше агентов для моделирующих наук
CURIE, a multitask benchmark for scientific reasoning

DeepMind представил CURIE — банчмарк для научных проблем в шести дисциплинах: материаловедении, физике конденсированного состояния, квантовых вычислениях, геопространственном анализе, биоразнообразии и моделировании протеиновых структур. Все задачи требуют экспертных знаний в предметной области, длнного контекста и multi-step reasoning.

Бенчмарк CURIE охватывает 10 задач на основе 429 статей по шести различным научным дисциплинам, и охватывают как экспериментальные, так и теоретические аспекты научных исследований. Оценено много моделей: Mixtral, Command R, LongLlama, все топовые проприетарные модели.
🟣https://arxiv.org/abs/2503.13517
🟣https://research.google/blog/evaluating-progress-of-llms-on-scientific-problem-solving/

🌸Законы масштабирования агентов для науки
Scaling Laws in Scientific Discovery with AI and Robot Scientists

Достаточно неплохой обзор степеней автономности агентов для науки, с онтологией способностей, оценкой текущего состояния и следующих степеней автономности. Экспериментов по масштабированию, правда, никаких не ставится, просто рисуют красивые картинки с экспонентами.
🟣https://arxiv.org/abs/2503.22444

🌸Меморизация и научная новизна
All That Glitters is Not Novel: Plagiarism in AI Generated Research

Могут ли агенты генерировать новые идеи? В целом что-то могут,  но за ними трудно проверять.
Статья анализирует недетектируемый плагиат в идеях Sakana AI и некоторых других, и оказывается, что 24% новых идей полностью сплагиачены без указания источника (и при этом плагиат не детектируется стандартными методами, так как все перефразировано), 36.0% работ содержали факты, которые никакой научной литературой не подтверждаются.
Странно, что не больше.
🟣https://arxiv.org/abs/2502.16487

Предыдущие части:
🟣LLM хакают научную новизну
🟣AI Scientist от Sakana AI
🟣MLGym — фреймворк для ML агентов
18.04.2025, 14:47
t.me/rybolos_channel/1464
RY
Kali Novskaya
17 111 assinantes
150
48
6.2 k
🌸Доступы к LLama 4🌸

Your request to access this repo has been rejected by the repo's authors.

Несколько человек в комментах (спасибо им!) отметили, что доступ к Llama на HuggingFace им не дали.
Я попробовала сама...и мне тоже не дали.

Потребуется некоторое время, чтобы процесс пофиксили на нашей стороне и стороне HuggingFace (чему мы научились? Не релизить в выходные?), но успех тут во многом зависит от того, как аккуратно вы заполнили поле Organization.

Общий совет:
— не оставляйте его пустым
— лучше пишите максимально длинно название своей организации, реально существующей.

Что можно сделать сейчас, пока у вас нет доступа:
1) переподайте заявку на сайте  — там можно подавать ее много раз. Тогда вы сможете скачать чекпоинты
2) Заведите issue на HF странице модели — их читают и потихоньку разгребают. Вам могут ревертнуть процедуру подачи заявки вручную, переподайте ее
3) Можно использовать перезаливы сообщества и уже выложенные квантизованные веса:
🟣Unsloth:
https://huggingface.co/unsloth/Llama-4-Scout-17B-16E-Instruct
https://huggingface.co/unsloth/Llama-4-Maverick-17B-128E-Instruct
🟣MLX community:
https://huggingface.co/mlx-community/Llama-4-Scout-17B-16E-Instruct-4bit
https://huggingface.co/mlx-community/Llama-4-Scout-17B-16E-Instruct-8bit
(там очень много разных уже)

Спасибо этому коммьюнити, что вы делитесь обратной связью, особенно тем, что непосредственно подсвечивает, что поправить.
В конечном итоге мне важно, чтобы модели адоптили и использовали, поэтому мне бы хотелось, чтобы вся эта обратная связь постепенно улучшала ваш опыт.
7.04.2025, 15:55
t.me/rybolos_channel/1463
RY
Kali Novskaya
17 111 assinantes
221
18
4.8 k
Коллектив Llama, когда выпустили в опенсорс модели на 100 и 400 млрд параметров и почти ничего не сгорело
5.04.2025, 23:54
t.me/rybolos_channel/1462
RY
Kali Novskaya
17 111 assinantes
183
107
4.8 k
🌸Llama 4 с 10М токенов контекстного окна 🌸
#nlp #про_nlp

Выпущенная сегодня Llama 4 Scout протестирована на способности при <10 млн токенов в контекстном окне.

Для чего нужен контекст в 10 млн токенов вообще, когда есть RAG?

10 миллионов токенов — это примерно:
🟣большой репозиторий со множеством файлов и всей историей коммитов
🟣небольшая Вики с документацией
🟣файловая система с большими документами, книгами
🟣10+ часов видео
И главное
🟣это ризонинг на всем этом объеме, а не только на отдельных фактах.
🟣 это извлечение нужной информации сразу из многих документов и генерация в один шаг с опорой на нее
🟣это очень длинные подробные инструкции, промты и персонализация под любую историю сообщений или пользовательского поведения.

Собственно, это самый большой официально выпущенный контекст пока что (были отдельные работы по файнтюнингу до 50 млн под конкретные задачи (arxiv)). Все это делается с помощью частичного отказа от позиционных эмбеддингов в некоторых слоях, Rotary embeddings в большинстве слоев и подбору коэффициентов софтмакса в attention, лучше соответствующих длине контекста (arxiv).

Метрики бенчмарков MTOB (zero-shot machine translation с языка Kamalang, очень сложный ризонинг и in-context learning) и Needle in the Haystack прекрасно показывают текущий результат:

🟣MTOB: новая SOTA, 39.7%, +4.6% относительно Gemini 2.0 Flash Lite (35.1%)

🟣Needle in the Haystack: 100% на 10 млн контексте (бенчмарк мы автоматически расширили синтетически до 10 млн, оригинально там 1 млн)

Контекст такого объема еще надо на чем-то тестить - бенчмарков мало. Тем не менее, это очень большой вклад в преодоление проблем
1) агентов (у них обычно очень длинные логи)
2) персонализации под пользователя, без какого-либо обучения модели
3) кодинга у LLM
4) работы с большими документами, вики, архивами, научными статьями.

🌸Все это с открытой лицензией Llama 4. Ура!
5.04.2025, 23:44
t.me/rybolos_channel/1461
RY
Kali Novskaya
17 111 assinantes
51
30
4.9 k
Выложили также версии в FP8
https://huggingface.co/collections/meta-llama/llama-4-67f0c30d9fe03840bc9d0164
5.04.2025, 22:46
t.me/rybolos_channel/1460
RY
Kali Novskaya
17 111 assinantes
88
29
4.7 k
В комментариях спрашивают про дистиллированные версии — я думаю, в ближайшие дни они так или иначе появятся на HF

Из того, что готовится, это ещё не самые большие: внутри мы тестим модель на 2 триллиона параметров (288B активных параметров на 16 экспертов MoE)
5.04.2025, 22:31
t.me/rybolos_channel/1459
RY
Kali Novskaya
17 111 assinantes
78
134
9.9 k
🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео. Картинок в контексте может быть до 5 штук, чтобы сохранялся контекст
— 12 основных языков (английский, французский, немецкий, арабский ,хинди, индонезийский, итальянский, португальский, испанский, тагальский, тайский и вьетнамский), но более 200 в претрейне (из No Language Left Behind)


Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост
5.04.2025, 22:22
t.me/rybolos_channel/1454
RY
Kali Novskaya
17 111 assinantes
133
10 k
5.04.2025, 22:22
t.me/rybolos_channel/1458
RY
Kali Novskaya
17 111 assinantes
133
10 k
5.04.2025, 22:22
t.me/rybolos_channel/1457
RY
Kali Novskaya
17 111 assinantes
134
10 k
5.04.2025, 22:22
t.me/rybolos_channel/1455
RY
Kali Novskaya
17 111 assinantes
133
10 k
5.04.2025, 22:22
t.me/rybolos_channel/1456
RY
Kali Novskaya
17 111 assinantes
86
95
8.6 k
🌸Релизим Llama 4🌸

OSS на уровне Gemini и Deepseek

Сегодня мы релизим модели из семейства Llama 4 — Llama 4 17Bx16 experts (Scout) и 128 experts (Maverick)

🌸Что интересного:

— 10 миллионов токенов контекстного окна с отличным качеством у модели Scout
— полный размер модели 16 экспертов — 108 млрд параметров, 128 экспертов — 400 млрд
— модель мультимодальная, инпут — текст, изображения, видео

Где посмотреть:
🟣Чекпоинты HF
🟣Блогпост
5.04.2025, 22:21
t.me/rybolos_channel/1449
RY
Kali Novskaya
17 111 assinantes
95
8.7 k
5.04.2025, 22:21
t.me/rybolos_channel/1450
RY
Kali Novskaya
17 111 assinantes
96
8.8 k
5.04.2025, 22:21
t.me/rybolos_channel/1453
RY
Kali Novskaya
17 111 assinantes
95
8.9 k
5.04.2025, 22:21
t.me/rybolos_channel/1452
RY
Kali Novskaya
17 111 assinantes
95
8.7 k
5.04.2025, 22:21
t.me/rybolos_channel/1451
RY
Kali Novskaya
17 111 assinantes
127
22
4.5 k
Ну что, сегодня релиз Llama 4
Урааааа впереееед
5.04.2025, 22:14
t.me/rybolos_channel/1448
RY
Kali Novskaya
17 111 assinantes
61
110
4.1 k
🌸LLM-агенты для науки: теперь и от OpenAI🌸
#nlp #про_nlp #nlp_papers

Вчера OpenAI зарелизили PaperBench — новый бенчмарк для оценки агентов по их способности понять и полностью воспроизвести основной технический вклад научной статьи, с кодом и результатами.

🌸TLDR Claude 3.5 оказался на нем лучше всех на задачах длиной 12 часов.

Бенчмарк состоит из 20 статей ICML 2024 года, принятых к представлению в Spotlight и устных докладов. Полное воспроизведение включает в себя понимание статьи, разработку кодовой базы с нуля для реализации всех экспериментов, а также запуск, мониторинг и устранение неполадок этих экспериментов по мере необходимости. Каждая задача репликации является крайне сложной и требует от экспертов-людей как минимум нескольких дней работы.

Все отобранные статьи
— представляют темы reinforcement learning, robustness, probabilistic methods.
— сделаны лабораториями без прямого индустриального финансирования (что интересно! см пост про независимость науки)
— отвечают критериям воспроизводимости и машиночитаемости из authors checklist — имеют четкое описание вычислительного бюджета, конкретных датасетов, бенчмарков, версий моделей.

Агентам можно ходить в интернет, но нельзя пользоваться непосредственным списком ресурсов из статей (защита от списывания слабоватая, конечно, обычно статью подробно разбирают в каком-нибудь блоге с кусочками кода). Для оценки используются LLM-судьи и автоматические метрики. На выполнение каждой задачи дается 12 часов, на одну статью — 3 попытки.

На основе текста и кода статей составляются 8,316 отдельных подзадач для агентов, и ряд LLM (O1, O3, Claude 3.5, Gemini) тестируются в нескольких агентских фреймворках:
— Basic Agent — по сути ReACT
— Iterative Agent — openai-ишное поделие, которое использует всю ту же логику, но убирает возможность закончить эксперимент раньше срока, пытаться надо как бы до конца, и это все будет одной попыткой.
У бенчмарка два подмножества: основное на 20 задачах, и мини на 3х статьях.

🌸Из интересного:
— в отличие от результатов MLE-bench, где лучшим вполне осмысленно оказался AIDE + O1— самым лучшим в базовой постановке задачи оказался обычный ReACT + Anthropic Claude 3.5
— Не совсем ясно, пробовали ли еще какие-то агентские фреймворки вообще, и не опробованными оказались более новые модели — Claude 3.7, Deepseek R1 новый, Gemini 2.5
— в целом работа производит впечатление очень сырой, что авторы и сами отмечают: работа с развитием агентных методов может существенно улучшить текущие результаты моделей.
— Лидерборд меняется, если ограничить решение задачи 36 часами, а не 12: тогда комбинация итеративного агента с О1 побеждает Claude + ReAct.
— В статье достаточно интересные результаты относительно сравнения с настоящими исследователями: агенты могут опережать их в течение первого часа автоматической работы, но затем выходят на плато, и после 12-24 часов работы человеческий результат стабильно обгоняет текущие решения ML-агентов. Учитывая наметившийся тренд и внимание к долгим задачам, постепенное улучшение в этом направлении очень ожидаемо.

🟣Paper
🟣Github (спросила про лицензию, у всего репозитория вроде MIT)
🟣Blogpost
3.04.2025, 14:10
t.me/rybolos_channel/1447
RY
Kali Novskaya
17 111 assinantes
41
57
4.7 k
🌸Field Matters 2025: Call for papers🌸
#nlp #про_nlp #nlp_papers

Друзья, стартовал прием статей на наш ежегодный воркшоп по автоматическим методам и инструментам для полевой лингвистики Field Matters.

🟣Собираете корпус, бенчмарк или парсер для малоресурсного языка?
🟣Занимаетесь созданием инструментов для работы с аудио, транскрипцией, глиссированием, в целом работы в поле?
🟣Делаете машинный перевод и transfer learning для малоресурсных языков?
Приходите к нам!

В этом году воркшоп пройдет в рамках конференции ACL 2025 в Вене.

Прием статей — до 11 мая!
Пожалуйста, распространите CFP коллегам

🟣Подать статью
🟣Call for papers
30.03.2025, 12:47
t.me/rybolos_channel/1446
RY
Kali Novskaya
17 111 assinantes
38
1
3.8 k
Через 15 минут начинаем!
Заходите
29.03.2025, 19:44
t.me/rybolos_channel/1445
RY
Kali Novskaya
17 111 assinantes
60
19
4.7 k
🌸Стрим на Рабкоре в 20.00 🌸

Сегодня в 20.00 по мск стрим на Рабкоре. В гостях в рубрике Копилефт писатель, автор известной книги "Код Дурова" и журналист Николай Кононов, с которым мы будем обсуждать то, насколько критично важными стали для нас определённые IT-продукты и как они влияют на нашу жизнь.

🟣Что должен делать бизнес условиях блокировок?

🟣Где проходит грань между “частным бизнесом” и жизненно важной инфраструктурой?

🟣“А может, взять все – и поделить!” Если рассмотреть ситуацию, когда у крупнейших  цифровых платформ есть инструменты их институционального контроля, то каким этот контроль должен быть?

Приходите!
Запись будет
Вопросы можно задавать в комментариях к этому посту и на стриме!

🟣YouTube https://youtube.com/live/0P7LN7CMBsQ?feature=share
29.03.2025, 17:31
t.me/rybolos_channel/1444
RY
Kali Novskaya
17 111 assinantes
49
12
4.0 k
Из комментариев:

"Наш AI Data Scientist гарантированно находит бенчмарк с экспоненциальным приростом за константное время"

"ЭКСПОНЕНТА! Любой ценой, но бесплатно"

В общем, на позитивной ноте:
— надо было использовать открытые давно существующие бенчмарки
— надо было мерить на опен сорс моделях и проверить, что тенденция сохраняется
— нужно существенно более подробное исследование и аблейшны, чтобы замерить основные факторы, влияющие на тенденцию

Без этого это просто не значит ничего, кроме очевидного, что модели в целом стали получше.
29.03.2025, 15:35
t.me/rybolos_channel/1443
RY
Kali Novskaya
17 111 assinantes
54
69
7.2 k
🌸METRики хайпа: найти экспонентциальный рост любой ценой🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе вышел анализ от METR (Model Evaluation & Threat Research) — независимой организации оценки способностей и рисков ИИ систем.

🌸TLDR: предлагается измерять производительность ИИ с точки зрения продолжительности задач, которые могут выполнить агенты.
При этом вводится новый бенчмарк и показывается, что продолжительность решаемых задач постоянно экспоненциально растет в течение последних 6 лет, и удваивается примерно раз в 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через пять лет мы увидим агентов, которые смогут самостоятельно выполнять большую часть программных задач, на которые в настоящее время у людей уходят дни или недели.

Для точности вводится новая метрика: учитывается время, которое обычно требуется людям для выполнения задач, которые модели ИИ могут выполнить с 50%-ным успехом.
У Claude 3.7 Sonnet, например, этот временной горизонт около 50 минут.

Красивая экспонента и оценки будущих горизонтов агентов уже ушли в заголовки.

🌸А теперь самое интересное: на чем меряем?

На немотивированно странном подмножестве бенчмарков.
— 97 задач из HCAST: инженерные задачи от 30 сек до 30 минут
— 7 сложных ML задач из RE-Bench по 8 часов каждая
— 66 очень простых софтверных задач от 1 до 30 секунд (новый бенчмарк, Software atomic actions, SWAA)
— 1 (одна, Карл!) задача из GAIA

🌸Что не так с такими оценками?

— если бы это было так просто, новую метрику бы вводить в целом не потребовалось, можно было бы взять 100+, а то и 1000+ задач предыдущих лет (у нас что, дефицит бенчмарков??) и спокойно построить результат. К сожалению, так не получилось, поэтому пришлось черри-пикать задачи и даже придумывать новые, которые бы дали нужную картину.

— сложность и время выполнения задачи — не одно и то же, можно придумать много долгих тупых задач;

— даже если считать, что в целом это правда, что мы постепенно научились автоматизировать более сложные задачи (конечно), то давайте прямо скажем, что улучшение качества происходит за счет разных компонент прогресса: доступности обучающих данных, бюджета на разметку, вычислительного бюджета на масштабирование модели, и самое интересное — за счет алгоритмической новизны. Все эти факторы имеют совершенно разный вес в каждой из приведенных задач. Соотношение этих факторов во многом для closed source моделей нам совершенно не известно. Смысла искать в них общую экспоненциальную тенденцию немного.

— компьют и данные не скейлятся по экспоненте, при этом только их вклад является наиболее предсказуемым; а алгоритмические улучшения отдельно без скейлинга трудно прогнозировать.

В общем и целом, перебор результатов, чтобы найти экспоненту — это уже самостоятельная бизнес-модель и вообще, залог будущих инвестиций.

Ну и напоследок, результаты опроса AAAI 2025 :"Большинство респондентов (76%) утверждают, что «масштабирование текущих подходов к ИИ» для создания AGI «маловероятно» или «крайне маловероятно» приведет к успеху, что вызывает сомнения относительно того, достаточны ли текущие парадигмы машинного обучения для достижения AGI."

🟣Пост METR
🟣Arxiv
29.03.2025, 15:15
t.me/rybolos_channel/1442
RY
Kali Novskaya
17 111 assinantes
30
4.5 k
28.03.2025, 12:54
t.me/rybolos_channel/1441
RY
Kali Novskaya
17 111 assinantes
51
4.5 k
28.03.2025, 12:54
t.me/rybolos_channel/1436
RY
Kali Novskaya
17 111 assinantes
71
4.7 k
28.03.2025, 12:54
t.me/rybolos_channel/1440
RY
Kali Novskaya
17 111 assinantes
109
42
4.7 k
Совершенно нет времени довести до приличного состояния все заметки и статьи, поэтому сегодня — пятничный мемотред #шитпост
28.03.2025, 12:54
t.me/rybolos_channel/1433
RY
Kali Novskaya
17 111 assinantes
32
4.5 k
28.03.2025, 12:54
t.me/rybolos_channel/1437
RY
Kali Novskaya
17 111 assinantes
62
4.6 k
28.03.2025, 12:54
t.me/rybolos_channel/1439
RY
Kali Novskaya
17 111 assinantes
26
4.5 k
28.03.2025, 12:54
t.me/rybolos_channel/1434
RY
Kali Novskaya
17 111 assinantes
38
4.5 k
28.03.2025, 12:54
t.me/rybolos_channel/1438
RY
Kali Novskaya
17 111 assinantes
44
4.5 k
28.03.2025, 12:54
t.me/rybolos_channel/1435
RY
Kali Novskaya
17 111 assinantes
125
53
5.5 k
Как ощущается день рождения после 30 на самом деле:
https://youtu.be/zyfHMFJAyA0?si=qIBIx_L0qM-S_cIb
21.03.2025, 14:52
t.me/rybolos_channel/1432
RY
Kali Novskaya
17 111 assinantes
246
9
3.9 k
🌸Колесо сансары дало оборот🌸
#не_про_nlp

Сегодня у меня, в очередной раз, день рождения.

Удивительно, как много всего изменилось за год: я поплавала с китами, вкалываю на работе мечты, и вообще совершенно счастлива.
Не хочется сильно много рефлексировать, но отпраздновать небольшой момент этого равновесия.

Если хотите что-то сделать, чтобы меня поздравить, как обычно, можно задонатить:
🟣Интернет-Архиву
🟣Архиву Анны
🟣Рабкору на работу и в Фонд поддержки левых политзеков
И спасибо, что вы здесь!
21.03.2025, 14:46
t.me/rybolos_channel/1431
RY
Kali Novskaya
17 111 assinantes
49
43
3.9 k
🌸Автоматическая фальсифицируемость

Оценку качества научной новизны и гипотез, как боттлнек, эксплуатируемый Sakana AI, в общем-то, тоже можно постепенно аккуратно побороть, если подключить автоматическую фальсифицируемость гипотез.

Недавно вышедшая статья Popper пытается решить эту проблему в 6 моделирующих науках из DiscoveryBench и нескольких других: социологию, биологию, гумнауки, экономику, мета-исследования и инженерию.

Суть предлагаемого подхода: 2 ReAct-агента с LLM генерируют новые гипотезы и план экспериментов, но включает в план экспериментов критику и методологические вопросы, способные определить измеримые следствия (подгипотезы) основной гипотезы и предложить эксперименты их по фальсификации. В частности, каждая подгипотеза должна быть фальсифицируемой с четкими нулевыми и альтернативными определениями. После разработки агент по выполнению эксперимента реализует эксперименты, которые могут включать сбор данных, моделирование, статистический анализ. Этот агент в конечном итоге выдает p-value, которое суммирует результат эксперимента по фальсификации.

Работа фокусируется только на обнаружении ошибок первого рода (false negative). Автоматическая и экспертная оценка результатов показали, что в работе такой системы есть как минимум 10 очевидных паттернов ошибок, которые препятствуют надежной автоматической оценке свободно сгенерированных гипотез (включая, по классике, неправильную интерпретацию p-value).

Тем не менее, относительно других бейзлайнов (vanilla ReAct, self-refine...), такой подход демонстрирует статически более надежный результат оценки качества гипотез. Удивительно, но Llama 3.3 70B оказалась в числе лучших моделей с точки зрения контроля качества гипотез, а Claude-Haiku 3.5 наоборот, имеет тенденцию к повышенному проценку false negative ошибок. Это не может быт.

Думаю, улучшение качества reasoning, постепенное углубление предметных знаний LLM и уменьшение галлюцинаций в целом должны постепенно улучшить качество такого подхода.
Если мы получим вместе автоматическую верифицируемость результатов и фальсифицируемость  автоматически сгенерированных идей, то дальше акселерация науки будет развиваться с совершенно другой скоростью.

🌸Ссылки:

🟣Интересное: на Github AI scientist можно посмотреть и сравнить человеческие рецензии и скоры, полученные статьями, и рецензи, сгенерированные сами себе AI Scientist
🟣MLGym
🟣Popper
🟣DiscoveryBench
15.03.2025, 18:28
t.me/rybolos_channel/1430
RY
Kali Novskaya
17 111 assinantes
39
27
3.0 k
🌸Нам нужен новый ИИ-Поппер и новый ИИ-Диссернет🌸
#nlp #про_nlp

На днях вышло замечательное дополнение к нашему циклу о LLM в науке:

Статья от AI Scientist (от Sakana AI) была принята на воркшоп. (Сиол очень подробно написал, почитайте)

Сама новость скорее не удивительна, так как AI Scientist вышел в октябре (пост) с готовыми примерами наукообразных статей, и очевидно, что с октября уже прошли дедлайны и рецензии нескольких крупнейших ИИ-конференций, и если бы смогли пройти на ACL, ICML или ICRL, то это была бы новость гораздо более серьезная. Но даже с кризисом рецензирования смогли пройти только на воркшоп.  

🌸Это первый раз?

Вообще говоря, нет. Сгенерированная статья Rooter впервые была опубликована в 2005 году (вот она) и ее корявый машинный перевод (Корчеватель) был также принят в рецензируемом российском журнале ВАК в 2008 -- журнал был со скандалом исключен из списка ВАК. Можно сказать, что так начинался замечательный проект Диссернет.
Оригинальная программа SciGen (опенсорс! GPL 2.0) в результате породила не одну принятую к публикации статью: по оценкам Nature в 2021 году SciGen привела к как минимум 243 статей, принятых в академические журналы. Авторы утверждают, что сгенерированные статьи составляют 75 статей на миллион статей (<0,01%) по информатике.
И вот мы подошли к моменту, когда на воркшоп "просочилась" chatGPT-агентная статья.
Это катастрофа?

🌸Автоматическая верифицируемость

Опять же, нет. Действительно спорная и вредная часть проекта  AI Scientist — это генерация новых квазинаучных идей и невалидируемый план экспериментов к ним. А исполняемая часть — валидация экспериментов — нормальная, ее можно использовать.

Не могу не упомянуть, что наш проект MLGym  развивает именно вот такую часть: итерации экспериментов в указанных и валидируемых условиях.

Но что, если сделать шаг дальше для решения самой проблемы peer review: подключить такую систему к рецензированию. Тогда оценка новизны останется на рецензентах, а валидация результатов статьи и верификация результатов будут автоматическими.

Рассуждая шире, мы можем ретроспективно запустить автоматическую валидацию для очень большого числа статей по компьютерным наукам — и выявить те из них, которые не воспроизводятся.

Генерация статей автоматически безусловно привела к понижению качества статей в среднем и усложнению рецензирования. Но в противовес этому нужно вводить также массовое маркирование и массовый отзыв некачественных статей. Массовый цифровой "диссернет" для статей на arxiv и openreview (для openreview проблема даже критичнее, потому что там тратятся человекочасы сообщества).

Завысили метрики для нового метода — на выход. Неправильно описали процедуру тестирования и опять же, завысили бенчмарки — получите метку "не воспроизводится".

Ограничение — исключительно в бюджете на вычислительные ресурсы и в вопросе стандартизации некоторых обязательных частей статьи, но с последним authors checklist уже вполне справляется.
15.03.2025, 18:27
t.me/rybolos_channel/1429
RY
Kali Novskaya
17 111 assinantes
32
2
3.3 k
Я сегодня встала с хорошим настроением, поэтому сейчас будет длиннопост серьезный. Забустите канал, пожалуйста! http://t.me/rybolos_channel?boost
15.03.2025, 18:08
t.me/rybolos_channel/1428
RY
Kali Novskaya
17 111 assinantes
42
3.8 k
15.03.2025, 14:34
t.me/rybolos_channel/1427
RY
Kali Novskaya
17 111 assinantes
38
3.8 k
15.03.2025, 14:34
t.me/rybolos_channel/1424
RY
Kali Novskaya
17 111 assinantes
31
3.8 k
15.03.2025, 14:34
t.me/rybolos_channel/1421
RY
Kali Novskaya
17 111 assinantes
45
3.8 k
15.03.2025, 14:34
t.me/rybolos_channel/1419
RY
Kali Novskaya
17 111 assinantes
107
35
3.8 k
Давно не было мемотреда — зачем так жить! Давайте исправлять #шитпост
15.03.2025, 14:34
t.me/rybolos_channel/1418
RY
Kali Novskaya
17 111 assinantes
30
3.8 k
15.03.2025, 14:34
t.me/rybolos_channel/1425
RY
Kali Novskaya
17 111 assinantes
43
3.9 k
15.03.2025, 14:34
t.me/rybolos_channel/1426
RY
Kali Novskaya
17 111 assinantes
47
3.8 k
15.03.2025, 14:34
t.me/rybolos_channel/1423
RY
Kali Novskaya
17 111 assinantes
50
3.8 k
15.03.2025, 14:34
t.me/rybolos_channel/1422
RY
Kali Novskaya
17 111 assinantes
29
3.8 k
15.03.2025, 14:34
t.me/rybolos_channel/1420
RY
Kali Novskaya
17 111 assinantes
75
63
3.2 k
🌸AMA с Peter Norvig🌸
#nlp #про_nlp

Внезапно, в четверг 25 марта — целых 3 часа сессии вопросов и ответов с Питером Норвигом.

🟣Питер Норвиг — директор исследовательской группы в Google, но знаем мы его не за это:
— написал основной университетский учебник по ИИ ещё в 1995 году: Artificial Intelligence: A Modern Approach в соавторстве со Стюартом Расселом (вот pdf, 1116 стр)
— автор огромного количества изящных решений и туториалов, например, мое любимое — спеллчекер в 21 строку
— автор коротких критических заметок, методологически правильно объединяющих инженерию и науку: про Хомского и статистическое моделирование языка, The Unreasonable
Effectiveness of Data
.

🟣Ссылка на AMA: 25 марта 5:00 PM - 8:00 PM PDT
https://lu.ma/98gt9h73?tk=PKNU0b
11.03.2025, 13:59
t.me/rybolos_channel/1417
RY
Kali Novskaya
17 111 assinantes
199
83
5.7 k
ИИ-специалисты, что же мы наделали 🙈😅
8.03.2025, 16:40
t.me/rybolos_channel/1416
RY
Kali Novskaya
17 111 assinantes
180
12
5.3 k
Всем подписчицам этого канала Клара и Роза желают: аккумулируйте побольше капитала, интернационально посещайте конференции!
Всем подписчикам: (вы и так айтишники, у вас все хорошо) — гендерного баланса в коллективе! 🌸
8.03.2025, 16:30
t.me/rybolos_channel/1415
RY
Kali Novskaya
17 111 assinantes
258
69
37 k
С 8 марта, дорогие подписчики и подписчицы!

Не день "весны, любви и нежности", а день борьбы за равные права, эмансипацию и справедливость!
В честь сего ссылка на большой прошлогодний пост:

Женщины в AI Research:
https://t.me/rybolos_channel/1067
8.03.2025, 14:55
t.me/rybolos_channel/1414
RY
Kali Novskaya
17 111 assinantes
13
5.6 k
7.03.2025, 14:59
t.me/rybolos_channel/1413
RY
Kali Novskaya
17 111 assinantes
13
5.6 k
7.03.2025, 14:59
t.me/rybolos_channel/1412
RY
Kali Novskaya
17 111 assinantes
23
14
5.3 k
Итоги работы ассистента:
7.03.2025, 14:59
t.me/rybolos_channel/1411
RY
Kali Novskaya
17 111 assinantes
41
50
5.0 k
🌸Кризис Peer-Review, или рецензенты NeurIPS ненавидят этот простой трюк (2)🌸
#nlp #про_nlp #nlp_papers

Мы уже смотрели с вами, как благодаря достижениям научного прогресса в 2024 стало можно замусорить А* конференции сгенерированными статьями. Что же может быть интереснее? А вот что: рецензировать и не пропускать статьи автоматически — решили организаторы NeurIPS 2024. Сегодня поговорим про интересный эксперимент -- статью "Usefulness of LLMs as an Author Checklist Assistant for Scientific Papers".

При сабмите статьи NeurIPS 2024 можно было поучаствовать любопытном в эксперименте: разрешить агенту дать вам обратную связь сразу на основании того, как хорошо вы выполнили authors checklist (это такая система формальных требований к публикации, навроде указания всех параметров экспериментов для воспроизводимости, лицензий, ссылок на датасеты). Несоответствие статьи требованиям в authors checklist приводит к автоматическому реджекту сабмита, и  обычно эта оценка проводится вручную. Текущий authors checklist — это примерно 40 пунктов, на которые авторам нужно ответить да/нет и указать место в статье, где выполнено требование.

Что же в результате? LLM-агент на GPT-4 поработал с 234 статьями, и последовательно указывал на пробелы в статье по тем или иным требованиям, чтобы авторы отредактировали статью и переотправили ее. Авторы статей затем проголосовали за полезность полученных замечаний.

Итог немного предсказуем: GPT-4 не в состоянии консистентно сопоставлять научные тексты и чеклисты. Основные замечания по качеству работы выявили, что систематически проблемно оцениваются теоретические основания работ, ограничения экспериментов, риски и оценка воспроизводимости. В ближайшее время автоматического рецензирования на NeurIPS  не будет. Также авторы отметили, что в целом у них упал дух после работы с таким ассистентом. Что в целом, цинично говоря, может быть и положительным эффектом — каждый год подается статей все больше, их качество при этом понижается.

А что же человеческое рецензирование?
Организаторы NeurIPS  уже не первый раз проводят подобный эксперимент:
в 2014 году часть поданных статей была отправлена сразу двум коллективам рецензентов, и затем на парах полученных решений по статьям (приняты, постер, отказ) провели статистические тесты. Результат показал, что в целом согласие рецензентов оставляет желать лучшего, хотя и лучше случайного.
— Эксперимент был также воспроизведен в 2021 году, и результаты в целом остались теми же: примерно 3% лучших статей получают accept от обоих комитетов с вероятностью выше 88%, а для 70% статей похуже результат вообще случайный.

Так что предлагаемый Эмили Бендер подход slow science (а давайте вдохновлять авторов подавать поменьше статей) вообще в целом остается рабочим.

Правда, может оказаться, что все меньше работ вообще таким образом будут проходить хоть какое-то реценирование, и все это в конечном счете пойдет в обучение LLM безо всякой валидации.

🟣Arxiv
🟣GitHub
7.03.2025, 14:59
t.me/rybolos_channel/1410
RY
Kali Novskaya
17 111 assinantes
89
26
3.9 k
Нерегулярная музыкальная рубрика по воскресеньям — #female_vocals
Но сегодня я устала и поэтому будет просто блэк метал на санскрите. Добрый вечер!

https://youtu.be/zJTmi9cgpKQ?si=zie_JAhglJpKPv3d
2.03.2025, 22:10
t.me/rybolos_channel/1409
RY
Kali Novskaya
17 111 assinantes
83
214
3.6 k
🌸Курс AI Safety от DeepMind🌸
#nlp #про_nlp #ai_alignment

DeepMind выпустил серию коротких видео с мини-лекциями про безопасность в ИИ
— Введение в AI Safety
— Глава 2: 5 частей про проблему AI Alignment
— Глава 3, Технические решения: обучение моделей и мониторинг качества, интерпретируемость, более безопасные дизайн-паттерны, стресс-тестирование
— Глава 4, Подходы к управлению рисками: институциональный подход к ИИ-безопасности, лучшие практики, оценка экзистенциальных рисков

🟣План курса: https://deepmindsafetyresearch.medium.com/introducing-our-short-course-on-agi-safety-1072adb7912c
(В конце есть две вакансии, в Лондоне и Нью-Йорке)
🟣Youtube-плейлист: https://youtube.com/playlist?list=PLw9kjlF6lD5UqaZvMTbhJB8sV-yuXu5eW&si=mSHlo4s7u6Q_aXSy
27.02.2025, 13:11
t.me/rybolos_channel/1408
RY
Kali Novskaya
17 111 assinantes
52
74
4.0 k
🌸Минидемо агентов в MLGym🌸

Используем trace visualizer UI для дебага и демо логов агента: на демо видно, как агент за 19 итераций проходит по файлам в директории, запускает бейзлайн (GPT-2 архитектура на датасете FineWeb), затем постепенно итерируется, доводя ее до аля-GPT-3. 
🟣https://www.youtube.com/watch?v=yiinpI7Vmzg 

Что там происходит:
Каждая итерация у агента начинается с генерации идей и этапов планирования → затем выполнение действия (запуск команды bash, написание кода python, запуск обучения и т. д.), а затем выполнение кода и проверка результата.

На первом этапе агент открывает бейзлайн обучения GPT2 и проверяет его, запускает базовый скрипт обучения.
Агент понимает, что главная цель — сократить loss на валидации
Затем решает изменить базовую архитектуру: увеличить dimension size модели (фактическое изменение, которое используется в статье GPT3)

Это работает, и на следующей итерации агент решает внести больше изменений:
изменить learning rate
больше итераций обучения

— Чтобы все это запустить, агент не только изменяет параметры скрипта обучения, но также проверяет даталоадер и вносит в него изменения, только затем запускает обучение.

— В результате мы получили loss 3,5, на 24% лучше бейзлайна
— Также агент выяснил, что во время последней итерации стабильность обучения улучшилась.


Больше демок для RL, CV задач здесь:
🟣https://sites.google.com/view/mlgym

🟣Сами логи агентов в репозитории https://github.com/facebookresearch/MLGym
21.02.2025, 21:10
t.me/rybolos_channel/1407
RY
Kali Novskaya
17 111 assinantes
84
13
3.7 k
Заодно — поставьте ⬆ статье на HuggingFace paper, пожалуйста!
🟣https://huggingface.co/papers/2502.14499
21.02.2025, 14:44
t.me/rybolos_channel/1406
RY
Kali Novskaya
17 111 assinantes
139
4
3.6 k
Как же хочется простого человеческого чтобы Ян Лекун репостнул...
21.02.2025, 14:43
t.me/rybolos_channel/1405
RY
Kali Novskaya
17 111 assinantes
48
5
3.9 k
В тексте статьи есть пара пасхалок от меня, особенно одна в Limitations, там есть кусочек, который подписчикам точно будет очень знаком!🤓
21.02.2025, 13:43
t.me/rybolos_channel/1404
RY
Kali Novskaya
17 111 assinantes
22
7.6 k
21.02.2025, 13:35
t.me/rybolos_channel/1403
RY
Kali Novskaya
17 111 assinantes
22
24
7.5 k
21.02.2025, 13:35
t.me/rybolos_channel/1401
RY
Kali Novskaya
17 111 assinantes
24
7.6 k
21.02.2025, 13:35
t.me/rybolos_channel/1402
RY
Kali Novskaya
17 111 assinantes
152
374
12 k
🌸MLGym – открытый фреймворк и бенчмарк для Агентов в автоматизации ML-задач🌸
#nlp #про_nlp #nlp_papers

Сегодня, под конец этой насыщенной недели, мы с коллегами выпускаем новую работу "MLGym: A New Framework and Benchmark for Advancing AI Research Agents".

🟣TL;DR
MLGym – это фреймворк для оценки и развития LLM-агентов.
В нем пока 15 различных ML задач, включая хорошо и не очень определенные: задачи на NLP, CV, RL, теорию игр.
Агенты должны продемонстрировать свою способность понять задачу, запустить бейзлайн, оцени его, и начать итерировать эксперименты и улучшать результат, находясь при этом в заданной среде. В среде есть набор инструментов, которые можно использовать: поиск по файловой системе, поиск по файлам, модуль памяти, просмотр и изменение файлов, и собственно действия запуска скрипта оценки и сабмита решения.
Каждая задача содержит датасет, метрику, бейзлайн, а также свою собственную среду, где есть контролируемые ограничения на вычислительный бюджет и таймауты.

Мы предлагаем иерархическую структуру из 6 уровней для оценки степени автономии и научного вклада агентов:
Уровень 0: воспроизведение – аккуратно повторить чужие эксперименты без ошибок
Уровень 1: Итеративное улучшение бейзлайна – применение лучших практик, перебор гипертапаметров
Уровень 2: Достижение SOTA через итерации от бейзлайна – решение лучше тех, что смогли найти люди
Уровень 3: Новый научный вклад – можно быть принятым на условный NeurIPS
Уровень 4: Научное новаторство, фундаментальный научный вклад – можно получить "лучшую статью" на том же NeurIPS
Уровень 5: Долгосрочная исследовательская программа – test of time awards, научная революция, премия Тьюринга.

🟣Что мы выяснили?
Текущие ИИ системы находятся почти поголовно на уровне 1.

Удобно оценивать все системы относительно дельты, которую они смогли достичь, опираясь на бейзлайн, за заданное количество итераций (за первые 5 шагов у системы Х получили +15% точности, а у системы Y +20%). Если оценивать LLM-агенты так, то увидим, что O1-preview вырывается вперед практически на всех задачах. GPT-4o и LLama 3.1 405B примерно на одном уровне, Claude и Gemini делят обычно 2 и 3 место. Ну а если помимо дельты оценивать еще и стоимость инференса модели, но картина меняется, и лучше по соотношению оказывается Gemini с большим отрывом.  

Достаточно интересно посмотреть распределение действий агентов и их ошибок:
— большинство LLM-агентов делают ошибки и из-за этого не доходят до сабмита, тогда как O1 и Gemini гораздо чаще просто не доделывают сабмит до конца.
— все агенты большую часть действий тратят на изменение файлов: редактирование скриптов обучения, а также чтение файлов, запуск обучения и валидацию — соотношение действий примерно у всех одинаковое, хотя некоторым система действий требуется меньше.
— почти все агенты очень мало используют поиск, хотя могли бы.
— минимальное число итераций до первого сабмита — примерно 5. Все системы начинают с чтения файлов, затем запускают валидацию, и дальше планомерно итерируются, изменяя скрипты и запуская обучение.

🟣Что еще есть полезного?
— Классный Web UI визуализатор агентных логов на streamlit
— Есть набор полезных функций и tools, полностью совместимый с SWE-Agent.
— Есть модуль памяти, модуль поиска научной литературы, и еще много разных ништяков, которые можно использовать отдельно от бенчмарка, просто развивая своего агента (свой агент? Это же неодушевленное...). 
— Есть большой обзор литературы, охватывающий почти все последние работы в области агентов для SWE, ML, науки, который угадайте кто писал.

Линейку задач можно легко расширять — поэтому мы будем рады идеям и контрибьюшенам, а также любой активности в репозитории.

🟣Arxiv: https://arxiv.org/abs/2502.14499
🟣Github: https://github.com/facebookresearch/MLGym
🟣Лицензия: CC-BY-NC 4.0
21.02.2025, 13:33
t.me/rybolos_channel/1400
RY
Kali Novskaya
17 111 assinantes
177
7
4.0 k
Так, ну вообще-то я не даром так много рассказываю вам об акселерации науки — настало время немножко показать и непосредственно мою небольшую часть в этой сфере 😌
Сегодня вышла моя первая статья в Meta!
21.02.2025, 13:30
t.me/rybolos_channel/1399
RY
Kali Novskaya
17 111 assinantes
131
180
7.0 k
🌸Акселерация науки — вперед!🌸
#nlp #про_nlp #nlp_papers

Молчать про это невозможно — про автоматизацию и акселерацию науки с помощью ИИ-моделей. На этой неделе происходит сразу несколько интересных релизов:

🟣OpenAI выпустил SWElancer: новый бенчмарк для агентов в привязке к реальным заданиям с биржи фриланса (100 млрд сами себя не заработают). OpenAI продолжает работу по привязыванию оценки работы ИИ к монетарной ценности — в задачах вроде как и сложных, но все-таки не научных, а скорее экономически выгодных.

🟣Google выпустил Co-Scientist: ассистента для ученых на основе последней модели Gemini в применении к 3 биомедицинским задачам: поиск новых применений уже известных препаратов, предложение новых терапевтических подходов к лечению и выяснение механизмов, лежащих в основе устойчивости к противомикробным препаратам.

Как говорится, две большие разницы. Подход Google больше похож на мои тезисы из "как делать AGI аккуратно": методы машинного обучения уже давно проникли в различные научные области, автоматизируя отдельные части процесса. Уже нашлись приложения в таких науках, как физика, биология, химия, лингвистика, экономика, геологическое моделирование, эпидемиологическое моделирование, нейронауки.
ИИ легко применим в любой области науки, где имеется 2 необходимых условия для автоматизации: формальные модели и симуляции.

Вполне логично, что агенты могут успешно автоматизировать генерацию тем, и даже эксперименты, но не могут пока что полноценно генерировать научную новизну.
И если добавить в эту цепочку самого исследователя — то проблему автоматической валидации новизны можно и вовсе обойти!

Но это еще даже не все:
🟣Stanford/Harvard выпустили Popper — агента для автоматического фальсифицирования гипотез в биологии, экономике, социологии. Составные части научной акселерации скоро будут собраны почти все.

Судя по скорости, до конца этой недели.
20.02.2025, 23:54
t.me/rybolos_channel/1397
RY
Kali Novskaya
17 111 assinantes
177
7.4 k
20.02.2025, 23:54
t.me/rybolos_channel/1398
RY
Kali Novskaya
17 111 assinantes
112
139
3.8 k
🌸Опенсорс от HuggingFace: рекап за год🌸
#nlp #про_nlp  #nlp_papers

HuggingFace подвели итоги всех открытых проектов, которые научная команда стартапа нициировала за прошедший год. Давайте вместе посмотрим, как много на самом деле значит сила открытого сообщества и организованного труда!

Январь 2025
🐳Open-R1  – открытая инициатива по воспроизведению результатов DeepSeek R1, включая методы пост-тренинга и датасеты. Результаты воспроизводятся! Apache 2.0
🛠️SmolAgents  – фреймворк с полезным абстракциями для построения LLM-агентов, с типичной логикой и классами. Из коробки предлагается использовать поиск DuckDuckGo
и открытые LLM. Apache 2.0

Декабрь 2024
📈Scaling Test Time Compute – подробный разбор стратегий test-time compute методов на примере моделей Llama
📐FineMath – подкорпус на 54 млрд токенов из FineWeb, содержащий математический контент, в том числе пошаговые решения. Есть еще его корпус-побратим FineWeb-edu с образовательными текстами. Лицензия ODC-by

Ноябрь 2024
🤓SmolVLM  – visual-версия SmolLM, принимает на вход картинки и текст. Apache 2.0
Октябрь 2024
🔎LLM Evaluation Guidebook  – подробный материал с лучшими практиками по оценке языковых моделей, включая составление тестов, инструкции аннотаторам, использование LLM-as-a-judge
🗺️FineTasks – бечнмарк для оценки качества претрейна LLM на множестве языков. Лицензия ODC-by

Сентябрь 2024
🎥FineVideo  – датасет на 43 тысячи видео для обучения SORA-like моделей видео-генерации, своя лицензия License CC-By

Лето 2024
📣Speech-to-Speech, Speech-to-Speech Multilingual  – попытка создания модульной GPT4-o. Модули вклают в себя открытые LLM, а также модели STT и TTS, и даже voice activity detection от Silero
🥇Win AIMO – AI Mathemathical Olympiad соревнование выиграно на основе открытых моделей
🤗SmolLM – семейство открытых моделей мини-размера:  135M, 360M, and 1.7B параметров. Пригодно для on-device и real-time задач, при этом сами модели получены не путем дистиллирования, а просто обучены на очень качественных данных: курируемых датасетах с кодом, образовательным контентом и фактологией.  Apache 2.0
🤖LeRobot,LeRobot Tutorial  – курируемый набор моделей, фреймворков, датасетов и туториалов для робототехнического прототипирования. Apache 2.0

Весна 2024
🍷FineWeb – огромный очищенный интернет-корпус для предобучения больших языковых моделей на 15 триллионов токенов. Есть мультиязычная версия, я теперь еще и бенчмарк, доказывающий, что корпус лучше остальных для сходимости моделей. Лицензия ODC-by
🏆Zephyr Mixtral , Zephyr Gemma  – быстрые повторения моделей Gemma и Mixtral на основе синтетических датасетов, обе под своими собственными лицензиями.
Lighteval Release – открытый фреймворк для эффективной и полной оценки LLM (теперь еще и многоязычный). MIT License
⭐️The Stack v2 – очищенный (и лицензионно чистый) датасет для обучения кодовых LLM. Своя собственная лицензия
⭐️StarCoder2 – улучшенная версия модели для генерации кода StarCoder. OpenRAIL license
🌌Cosmopedia – синтетически сгенерированный корпус с фактологически верной информацией, основанной на лицензионно чистых источниках. Apache 2.0

В целом, исключительно постоянная организационная работа  с сообществом и позволяет нагнать закрытые модели, потому что постоянно создаются строящиеся кирпичики, на которых создается дальнейшая воспроизводимость – инфраструктура, модели, датасеты, подходы. 

🟣Блог-пост с проектами
https://huggingface.co/science
17.02.2025, 12:52
t.me/rybolos_channel/1396
RY
Kali Novskaya
17 111 assinantes
33
3.8 k
15.02.2025, 13:44
t.me/rybolos_channel/1392
RY
Kali Novskaya
17 111 assinantes
85
3.9 k
15.02.2025, 13:44
t.me/rybolos_channel/1394
RY
Kali Novskaya
17 111 assinantes
20
3.8 k
15.02.2025, 13:44
t.me/rybolos_channel/1393
RY
Kali Novskaya
17 111 assinantes
30
3.8 k
15.02.2025, 13:44
t.me/rybolos_channel/1391
RY
Kali Novskaya
17 111 assinantes
45
3.9 k
15.02.2025, 13:44
t.me/rybolos_channel/1395
RY
Kali Novskaya
17 111 assinantes
54
3.9 k
15.02.2025, 13:44
t.me/rybolos_channel/1388
RY
Kali Novskaya
17 111 assinantes
150
36
3.9 k
Давно не было мемотреда! #шитпост
15.02.2025, 13:44
t.me/rybolos_channel/1387
RY
Kali Novskaya
17 111 assinantes
18
3.8 k
15.02.2025, 13:44
t.me/rybolos_channel/1390
RY
Kali Novskaya
17 111 assinantes
111
4.0 k
15.02.2025, 13:44
t.me/rybolos_channel/1389
RY
Kali Novskaya
17 111 assinantes
102
255
4.7 k
🌸Deepdive into LLMs🌸
#nlp #про_nlp

Андрей Карпаты выпустил новое видео!
Хорошая обзорная лекция для начинающих свой путь в языковых моделях:
— основы претренинга, токенизации
— пост-тренинг и RLHF стадия
— примеры GPT2, Llama 3.1, DeepSeek R1
Все коротенечко за 3.5 часа!

🟣Видео: https://youtu.be/7xTGNNLPyMI?si=zSa6jMXJV38wRQ9J
10.02.2025, 12:13
t.me/rybolos_channel/1386
RY
Kali Novskaya
17 111 assinantes
169
164
5.7 k
🌸Вакансия в Llama Team🌸

Со вчерашнего дня у меня есть новая вакансия в мою команду: L4 Research Scientist в Лондон

Будем делать LLM posttraining, агентов и акселерацию науки — и все а опен сорсе.

🟣Нужно обязательно:
— хорошие знания в языковых моделях, reinforcement learning, системное научное мышление
— PhD вокруг LLM или около,
— трек ML публикаций, где вы в первых авторах
— хорошо пройти все разные секции: ML System design, AI Coding, Behavioral.
(Про некоторые из них я уже сама раньше рассказывала, считай, подготовила вас немножко)

🟣Что желательно:
— рабочая/talent виза в UK
— желание выйти поскорее
— не только научный, но и инженерный опыт, способность не только дотюнить модель, но и поконтрибьютить во фреймворк вокруг.


🟣Податься можно здесь: https://www.metacareers.com/jobs/1763573274592729/
6.02.2025, 22:53
t.me/rybolos_channel/1385
RY
Kali Novskaya
17 111 assinantes
91
73
6.1 k
🌸Ежегодный спич AGI Russia 🌸
#nlp #про_nlp #nlp_papers

В четверг буду делать ежегодный (уже традиционный) обзор работ и тенденций, которые прокладываюь наш путь к AGI

На пути к AGI: Обзор работ 2024-2025 года

6 февраля 2025, 18:00 (время московское)

Регистрация:
🟣https://aigents.timepad.ru/event/1412596/
4.02.2025, 14:36
t.me/rybolos_channel/1384
RY
Kali Novskaya
17 111 assinantes
326
60
5.4 k
Начинаю свой рабочий день с того, что отдаю американское ИИ-преимущество Китаю 🏭🍷
27.01.2025, 14:46
t.me/rybolos_channel/1383
RY
Kali Novskaya
17 111 assinantes
Repostar
204
51
5.0 k
Помните Гэри Маркуса, который активно рассуждал о проблеме композициональности: дескать, вот астронавта на лошади современные модельки могут нарисовать, а вот лошадь на астронавте нет (спойлер: лучше модельки это сейчас уже могут). Потом выступал в Сенате США по поводу ИИ-рисков?

Теперь вот требует покарать Цукерберга и Лекуна за опенсорс. Дескать, они продали США и из-за их опенсорса США потеряла лидерские позиции в области генеративного ИИ
27.01.2025, 14:43
t.me/rybolos_channel/1382
RY
Kali Novskaya
17 111 assinantes
69
20
3.6 k
🟣Через час начинаем!

Вопросы можно задавать под этим постом или через донат

Все донаты идут в фонд поддержки левых политзаключённых и на Работу рабкора.

https://youtube.com/live/NzZ1wbQiRPQ?feature=share
25.01.2025, 19:01
t.me/rybolos_channel/1381
RY
Kali Novskaya
17 111 assinantes
107
47
6.4 k
🌸Стрим на Рабкоре, 20.00мск🌸

Друзья, на неделе произошло много больших событий:
— Китайский DeepSeek выпустил открытую нейросеть R1, догнавшую но метрикам OpenAI
— OpenAI выпустили агента Operator
— В США натуральный техноолигархат делит ресурсы
— 500 млрд инвестиций на ИИ — и все заберёт OpenAI?
— Что нас ожидает в 2025 году, будет ли технологическая независимость в опенсорсе?

Обо всем этом сегодня поговорим на Рабкоре в 20.00
Приходите!

🟣Youtube: https://youtube.com/live/NzZ1wbQiRPQ?feature=share
25.01.2025, 16:27
t.me/rybolos_channel/1380
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa