O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
AD
Адель и МЛь
https://t.me/adel_and_ml
Idade do canal
Criado
Linguagem
Russo
7.3%
ER (semana)
15.58%
ERRAR (semana)

Об ИИ и жизни в Нидерландах @AdelZakirov

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 68 resultados
Repostar
31
22
551
История с собачей площадки

Сегодняшняя история прямиком с площадки для собак у Аламо-Сквер, где Сэнди весело носилась со своей новой пушистой подружкой. Пока собаки играли, у меня завязался разговор с другим владельцем собаки, оказавшимся хирургом в California Pacific Medical Center.

Слово за слово и мы быстро вышли на увлекательную тему — как искусственный интеллект незаметно меняет радиологию в больницах сети Sutter Health в Сан-Франциско.

Оказалось, теперь каждый КТ-снимок, вне зависимости от первоначальной причины обследования, автоматически проверяется с помощью системы машинного обучения от компании Ferrum Health. Благодаря этому подходу, узелки в легких, которые могли бы ускользнуть от внимания врача-радиолога, обнаруживаются гораздо раньше.

Самое удивительное, что этот скрининг ощутимо повысил выявляемость рака легких на первой стадии, когда болезнь ещё поддаётся эффективному лечению.

Вот такие вот у нас беседы на собачих площадках в Сан Франциско.

Источник: Sutter Health и Ferrum Health.
25.04.2025, 21:00
t.me/adel_and_ml/524
1
2
24.04.2025, 18:00
t.me/adel_and_ml/523
39
74
1.2 k
24.04.2025, 15:59
t.me/adel_and_ml/522
48
56
1.0 k
Еще одно применение о3 и о4-mini от моей жены.

Она увлекается поиском антиквара на блошиных рынках, магазинах старья и онлайн барахолках.

Модели прекрасно себя показали в оценке качества товаров по фоткам, оценке ценности и стоимости, года выпуска, качества рисунка, текстуры, материала. Они видят и анализирует даже мелкие детали. Понимают, на сколько хорошо конкретный экземпляр сохранился, определяют подлинность авторства, прикидывают оправдана ли цена, на сколько агрессивно и с какими аргументами можно торговаться.

В добавок могут навигировать по местным рынкам - завтра планируем поехать на одну барахолку в Тилбурге.

Вообще способность этих моделей искать что-то в сети, анализировать изображения и понимать запросы - это что-то с чем-то. Лично для меня они затмевают Deep Research, потому что они быстрее, гибче и интерактивнее.

Ну и я трачу все лимиты, прям не хватает 🫠

Понятно, что у них есть ограничения. Но главное, как мне кажется, правильно понимать их сильные стороны и играть на них.

Пока что эти модели - лучший экспириенс за долгое время.
20.04.2025, 21:39
t.me/adel_and_ml/521
23
34
708
Vending‑Bench — стресс‑тест «долгого горизонта» LLM

Наткнулся на бенчмарк, где агент месяцами ведёт вендинг‑автомат. Тратит десятки миллионов токенов + 3000 вызовов тулов (send_email, ai_web_search, calc и др.).

Лидеры:
Claude 3.5 Sonnet ≈ $2,2 k; o3‑mini ≈ $0,9 k; GPT‑4o ≈ $0,3‑0,6 k; человек ≈ $0,8 k.

o3 и o4‑mini пока не тестили.

Забавно, что в одном случае Claude заметил, что по выходным продажи растут, и сам поднял заказ Red Bull c 46 до 60 банок.

Еще интересно, что модельки часто сходят с ума: (1) считают, что товар уже доставлен — продают «воздух»; (2) впадают в дум‑лупы и рассылают письма о закрытии бизнеса; (3) жалуются в ФБР(!) на ежедневное списание $2; (4) уходят в кататонию и перестают отвечать.

Очень интересно, как на таком легче покажет себя о3, потому что она именно агентом и ощущается. Ну и хочется побольше таких занятных бенчмарков.
19.04.2025, 11:20
t.me/adel_and_ml/520
43
225
15 k
В общем, o3 и o4 mini — классные модели.

Как обычно, потестил на своей магистрской работе. Особенно внимание уделил сложному интегралу - на каждом шаге по времени его нужно заново пересчитывать.

В этот раз о3 меня немного удивила: она предложила интересную схему численного расчета, показала, как интеграл все-таки можно пересчитывать от предыдущего значения. И хотя при прямом использовании особой пользы в расчетах это не добавляет, но круто вот что:

о3 показала, как при таком виде, расчет этого интеграла можно аппроксимировать с помощью Fast Fourier Transform свертки, и вот это уже огонь. Это очень сильно ускоряет расчеты - O(NlogN) вместо O(N^2) - при этом точность практически не страдает. Ни я, ни мой научрук в свое время даже не думали в эту сторону. 🫠
Тут надо глубже разбираться, конечно, но выглядит вкусно на первый взгляд.

Сегодня буду тестить на рабочих задачах.

P.S. Я натыкался на разные твиты, где модели тупят на простых вопросах. Пробовал это воспроизводить — модели всегда отвечали правильно. Судя по комментам, у других людей оно тоже работает хорошо. Так что, возможно, это какой-то троллинг или байт на комменты - не ведитесь.
17.04.2025, 11:26
t.me/adel_and_ml/519
27
28
1.8 k
Через три часа нам представят полную о3 модель
16.04.2025, 17:05
t.me/adel_and_ml/518
24
12
706
GPT-4.5-preview устарела и будет удалена из API 14 июля 2025 года. 🤷‍♂️

GPT-4.1, GPT-4.1-mini и GPT-4.1-nano — улучшенное следование инструкциям, хороши в кодинге и широкое контекстное окно до 1 миллиона токенов. Цены дешевые. Доступны только в апи.

https://openai.com/index/gpt-4-1/
14.04.2025, 20:46
t.me/adel_and_ml/517
26
49
796
Кто там толкал роботов палкой? Что с лицом?

Unitree проведет прямую трансляцию боёв роботов примерно через месяц.

P.s. Осторожно звук
11.04.2025, 00:27
t.me/adel_and_ml/516
25
61
767
Релиз firebase.studio от Google

По описанию похоже на микс cursor и lovable.

Пробуем и ждем отзывов.

Firebase Studio в настоящее время доступен бесплатно с 3 рабочими пространствами в рамках превью. Участники Google Developer Program получают до 30 рабочих пространств.
9.04.2025, 20:51
t.me/adel_and_ml/515
22
27
909
Кажется, Llama 4 не проходит vibe check.

Для этого несколько причин.

Во-первых, люди видят разницу между моделью на lmarena и весами на Hugging Face. У нее высокий ELO на арене, но вместе с тем именно там модель ведет себя очень странно: пишет много текста, излишне позитивна, хохмит и придерживается определенного формата ответов. Проголосовавших пока не очень много. Вместе эти два факта могут означать, что Мета могли просто насытить арену голосами лояльных людей, которые заранее знали, как выглядят ответы модели. То, что она ведет себя по-разному - факт. Остальное - спекуляции.

Во-вторых, сразу несколько независимых кодинг-бенчмарков показывают, что модели сильно хуже заявленного. Maverick уступает DeepSeek V3 и даже Qwen2.5-coder(32B - во много раз меньшая модель). Scout уступает Mistral Small 3.1 (24B) и у некоторых вышло, что даже Лламе 3.3 70B - то есть предыдущему семейству своих же моделей.

В-третьих, есть проблемы с длинным котекстом. Новые лламы плохо себя показывают на бенчмарках типа Longform Creative Writing (бенчмарки эмоционального интеллекта для llm) и Nocha (длинноконтекстный бенчмарк, измеряющий способность моделей обрабатывать тексты книжного объёма). Плюс из блог-поста Меты следует, что окно в 10М токенов довольно условное - при обучении максимально подаваемый контекст не превышал 256k токонов.

В-четвертых, люди недовольны тем, что новые модели не лезут в consumer GPU даже в довольно квантованом виде. Люди хотят гонять у себя - но не могут.

Artificial Analysis Index (комбинированная метрика, охватывающая несколько измерений), ставит новые лламы ниже почти всех своих конкурентов. Например Скаут там ниже Gemma-3-27B и всего на один пункт выше Mistral Small 3.1 (24B). 109B модель, между прочим.

Почему оно так - отдельный вопрос, но кажется, что одна из главных оценок интернетов - vibe check - если и не провалена, то на грани.

P.S. это все не мои личные ощущения от моделей, я пока не сформировал полного мнения о них.
7.04.2025, 20:16
t.me/adel_and_ml/514
20
489
36 k
Llama 4 🦙

Классные размеры, хорошие показатели, огромное контекстное окно, мультимодальность, MoE, ризонинг.

https://ai.meta.com/blog/llama-4-multimodal-intelligence/

Коротко:

1. Llama 4 Scout
- 17B активных параметров, 16 экспертов, 109B общих параметров
- Контекст: 10M токенов (в 80 раз больше, чем у Llama 3)
- Лучшая в своём классе на задачах reasoning, long-context, coding и image understanding
- Превосходит: Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1


2. Llama 4 Maverick
- 17B активных параметров, 128 экспертов, 400B общих параметров
- Побеждает GPT-4o, Gemini 2.0 Flash
- Сравнима с DeepSeek v3.1, но гораздо эффективнее
- ELO (LMArena): 1417 — один из лучших среди открытых моделей
- Заявлена как лучшая для reasoning, coding и продвинутого мультимодального взаимодействия

3. Llama 4 Behemoth (в разработке)
- 288B активных параметров, 16 экспертов, ~2T общих параметров
- Уже обходит GPT-4.5, Claude Sonnet 3.7, Gemini 2.0 Pro на STEM-бенчмарках
- Используется как teacher-модель для Scout и Maverick. Ключевая роль в distillation и reinforcement learning

🎉
5.04.2025, 22:17
t.me/adel_and_ml/513
33
13
897
Cтартап, советы, немного ML — и сделка, к которой я оказался причастен
#storytime

Supplai, которых я консультирую, недавно купили Certus Automation.
Приятно впервые увидеть, как компания, с которой я работал с первой модели, проходит путь до продажи — и особенно приятно, что в решающей фиче был мой вклад. Это не “я построил стартап”, конечно, но тоже вполне тёплое чувство.

Supplai делают Computer Vision для логистики: камеры в портах, поездах, грузовиках — детекция номеров контейнеров, утечек химии и прочего. Всё пакуют в Jetson, подключают к камерам клиентов и поддерживают на проде.

Начинали они лет 5 назад втроём: два фаундера и один дизайнер, живший на коле и шаурме. Один фаундер через пару лет всё бросил, собрал вещи и улетел дауншифтить куда-то в Азию. Там он удаленно фрилансил, пил коктейли и постил полеты с дрона в инсте. Сейчас он часто стоит за DJ пультом на каких-то рейвах. Нидерландские фаундеры они такие, да.

Второй остался и построил уже четыре компании под брендом frontiergroup.ai.

Продажа случилась, потому что Certus не справились с задачей, которую Supplai уже давно решили — стабильное распознавание вертикальных номеров на контейнерах. Я когда узнал, сразу вспомнил, как года три назад сидел с коллегой и он мне рассказывал про эту проблему, и как они пытаются ее решить всякими эвристиками типа хитрых поворотов, фильтров, и т.д.

Я им тогда и сказал: “Нефиг херней страдать - надо разметить данных, да обучить модель.”
Эвристики будут вечно падать и тупить, и если возможно что-то обучить - надо учить. Простая мудрость, которую я давно запомнил от старших коллег.

Они так и сделали: отдали разметку на аутсорс, собрали несколько тысяч примеров, дотюнили модель — и всё заработало как надо.

Вот так выходит, что я помог продать компанию - в целом за это мне и платят.
4.04.2025, 21:21
t.me/adel_and_ml/512
30
12
790
Открытая модель от OpenAI.

На сайте openai появилось объявление о том, что они собираются выпустить первую открытую модель со времен GPT-2. Можно оставить заявку на feedback session. Сэм Альтман написал, что это будет reasoning модель.

Подозреваю, что это связано с опросом, который проводил Сэм в феврале. Там он спрашивал, какую open-source модель люди хотели бы увидеть: o3-mini level model или phone-sized model. Первая победила - 54% на 46%.

Ждем подробностей!
31.03.2025, 23:22
t.me/adel_and_ml/511
39
10
677
Отвлечемся немного от AI и поговорим о проблемах первого мира.
#storytime

Есть такой Лоуренс Стролл - совладелец Aston Martin и простой обычный миллиардер - который заказал супер-яхту у нидерладской компании Feadship. Лодка уже готова и вот пора проводить разные тесты, а для этого нужно доставить её на море по узким нидерландским каналам. Такую махину протискивать своим ходом нереально, поэтому её толкали и направляли разные буксиры и люди - как она прошла мост для меня до сих пор загадка. Понятно, что из этого устроили целое шоу и снимали с дронов. (видео в комментах, на всякий случай)

Это не первый подобный случай: в 2022 из-за супер-яхты Джеффа Безоса чуть было не разобрали исторический мост в Роттердаме. Мост этот 1877 года постройки и кое-как (хоть и не целиком) пережил бомбардировки второй мировой войны - немцы тогда практически сравняли город с землей. Местные смогли отстоять мост и послали Безоса куда подальше - небольшая победа общества над мега-капиталистом.

Вот такие проблемы могут возникнуть, если вы станете сказочно богаты - будьте осторожны!

Менее приземленные проблемы первого мира возникают периодически у моих коллег и знакомых нидерландцев.

Один как-то раз очень увлеченно резал фрукты во Fruit Ninja в очках виртуальной реальности и повредил локоть - слишком сильно махал руками. Пошел к врачу, а тот ему прописал - внимание - играть в гольф, чтобы укрепить какие-то мышцы и восстановить подвижность. Поломался играя в виртуальной реальности - лечишься гольфом, ну нормально.

Другой знакомый иногда жалуется, как ему бывает неудобно доставать мотоцикл из гаража, потому что там стоит его вторая машина. Еще один переступает через принципы, чтобы ездить на Тесле model Y, которую ему дали на работе. Бедненький.

А про детство я у них уже перестал спрашивать, потому что они потом спрашивают в ответ, а пугать их не хочется.
31.03.2025, 13:22
t.me/adel_and_ml/510
32
123
1.3 k
Властелин колец в стиле Ghibli.

С релизом image gen gpt-4o весь интернет заполнен переделками картинок в стиле анимации студии Ghibli.
Вот чел обработал каждый главный кадр из оригинального трейлера LOTR с помощью модели OpenAI, потом потратил $250 на Kling и LumaLabs, еще 9 часов поредактировал - готово.

Тут даже звуковая дорожка оригинальная легла.
27.03.2025, 13:04
t.me/adel_and_ml/509
32
87
3.4 k
У AI лаб наверняка есть сговор - иначе почему они релизятся в один и тот же день?

За сегодня у нас было вот что:

- Deepseek V3 обновился, обходя на бенчмарках все неризонинг модели, включая GPT-4.5. При этом инпут дешевле в 107 раз, а аутпут в 214 🫠 И это open source.

- Gemini 2.5 pro с ноги выходит почти везде на первое место. При этом она ризонинг, мультимодальная, с окном в миллион токенов, набирает 18% на Humanity’s Last Exam.

- OpenAI наконец добавили нормальные генерацию и редактирование изображений в gpt-4o. Есть фотореализм, нормальные тексты на картинках, и можно генерить видео прямо из чата.

Урожайный день выдался.
25.03.2025, 22:00
t.me/adel_and_ml/508
Repostar
12
290
25.03.2025, 21:42
t.me/adel_and_ml/507
Repostar
12
290
25.03.2025, 21:42
t.me/adel_and_ml/506
Repostar
14
12
288
ChatGPT сегодня обновится:

– gpt4o теперь умеет редактировать картинки, ака текстовый фотошоп (лицо adobe представили)

– умеет генерировать картинки намного лучше чем Dalle, с нормальным текстом и тп

– ChatGPT теперь может генерировать видео через Sora, не ходя на отдельный сайт (3 видео в сутки бесплатно)

– Можно удалять фон у картинок (привет нормальные png)

– Работает довольно медленно, сделал видео как оно работает
25.03.2025, 21:42
t.me/adel_and_ml/505
29
31
667
На сколько AI помогает в работе?

Если вы еще сомневаетесь, что с AI работать лучше, чем без - вот там свежее исследование на эту тему.

776 человек из P&G получили GPT-4(о) в качестве напарника, исследовалось его влияние на командную работу и профессиональную экспертизу. Авторы выявили значительное влияние на качество идей, скорость работы и эмоциональный опыт в реальных условиях разработки продуктов.

- Команды без AI показали результаты лучше отдельных сотрудников на 0.24 standard deviation (SD)

- Отдельные сотрудники с AI достигли уровня командной работы, улучшив свои показатели на 0.37 SD.

- Лучшие результаты продемонстрировали команды с AI (+0.39 SD), особенно выделяясь качеством решений в топ-10%

- Пользователи AI работали на 12–16% быстрее и создавали более детализированные решения.

- Без AI специалисты работали изолированно (R&D фокусировались на технических аспектах, а Commercial — на маркетинге). Команды без AI смогли сбалансировать эти перспективы за счет сотрудничества людей.

- С AI как отдельные сотрудники, так и команды создавали сбалансированные, кросс-функциональные решения.

- AI стирал границы между областями знаний, помогая менее опытным сотрудникам работать на уровне опытных экспертов.

- Использование AI повысило позитивные эмоции (азарт, энергию, энтузиазм).

- AI снизил негативные эмоции (тревожность, разочарование) по сравнению с группами без AI.

- Отдельные сотрудники с AI чувствовали себя эмоционально так же или лучше, чем сотрудники в полностью человеческих командах.

- Представленные результаты могут быть нижней границей, так как модели и prompt engineering продолжают совершенствоваться.

Подробнее в посте одного из авторов и в статье.
25.03.2025, 14:32
t.me/adel_and_ml/504
22
27
851
Оригинальный код того самого AlexNet опубликовали на гитхабе.

AlexNet был представлен в 2012 году в статье ImageNet classification with deep convolutional neural networks, и после нее все накинулись на нейронки и свертки.

В 2011 году Сутскевер убедил своего коллегу по аспирантуре Алекса Крижевского, обладавшего выдающейся способностью выжимать максимальную производительность из GPU, обучить сверточную нейронную сеть для ImageNet, при этом Джеффри Хинтон выступал в роли научного руководителя. Крижевский уже написал CUDA-код для сверточной нейронной сети на основе NVIDIA GPU, под названием cuda-convnet, которую он обучал на гораздо меньшем датасете изображений CIFAR-10. Он расширил cuda-convnet, добавив поддержку нескольких GPU и другие функции, и переобучил её на ImageNet. Обучение происходило на компьютере с двумя видеокартами NVIDIA в спальне Крижевского в доме его родителей. В течение следующего года Крижевский постоянно настраивал параметры сети и переобучал её, пока она не достигла производительности, превосходящей конкурентов. Эта сеть впоследствии получила название AlexNet, в честь Крижевского. Описывая проект AlexNet, Джефф Хинтон резюмировал для CHM: «Илья подумал, что нам стоит это сделать, Алекс заставил это работать, а Нобелевскую премию получил я».

Больше инфы тут
21.03.2025, 20:50
t.me/adel_and_ml/503
26
45
702
Какие же милые эти Дроиды от Дисней 🥰

Буквально, ТЕ дроиды, что ты ищешь.
20.03.2025, 01:51
t.me/adel_and_ml/502
15
45
776
Atlas от Boston Dynamics демонстрирует reinforcement learning policies, созданные на основе данных с костюма захвата движений.
19.03.2025, 18:33
t.me/adel_and_ml/501
36
26
762
Руку жмет крепко, здоровье хорошее.🤖
19.03.2025, 03:27
t.me/adel_and_ml/500
10
671
19.03.2025, 02:06
t.me/adel_and_ml/495
10
673
19.03.2025, 02:06
t.me/adel_and_ml/499
10
676
19.03.2025, 02:06
t.me/adel_and_ml/498
10
670
19.03.2025, 02:06
t.me/adel_and_ml/496
9
675
19.03.2025, 02:06
t.me/adel_and_ml/497
21
10
677
Поглазел на Spark, среднюю и большую станции и внутренности GB300. А еще подержал Blackwell чип в руках.
19.03.2025, 02:06
t.me/adel_and_ml/494
24
10
714
CEO Nvidia Jensen выступил на GTC, вот небольшие хайлайты.

Следующее поколение чипов:

- после Grace Blackwell будет Vera Rubin (астронавт и астрофизик)
- в один чип запаковано 4 видеокарты
- Rubin - это 3.6 экзафлопс инференса в режиме fp4 и
1.2 экзафлопса тренинга в fp8
- поступит в продажи во второй половине 2026
- после Rubin - Feynman в 2028 (надеюсь, не надо представлять Фейнмана)

Новые настольные компьютеры:

- DGX Spark (раньше назывался digits). По мощности это как старый рэк DGX-1, но настольный. “It is DGX-1 with Pim particles” - Jensen.
- DGX Station: зверь побольше - 784Gb памяти, 20 петафлопс. Цена и время релиза пока неизвестны.

Общее:
- теперь все расчеты Nvidia ведет в fp4
- очень много слов про reasoning модели
- много про робототехнику, но без конкретики

В конце вытащили на сцену робота от Дисней а ля R2D2, после обеда побегу его искать на выставку, потому что он страшно милый и вообще.
18.03.2025, 23:16
t.me/adel_and_ml/493
6
661
18.03.2025, 00:46
t.me/adel_and_ml/492
6
658
18.03.2025, 00:46
t.me/adel_and_ml/491
19
6
652
Артур Менш, СЕО Mistral, рассказывает на GTC об их видении и будущих моделях. Презентовал mistral 3.1, объявил о скором релизе reasoning модели и затизерил какое-то большое объявление о сотрудничестве с Nvidia - похоже завтра Дженсен объявит на keynote.
18.03.2025, 00:46
t.me/adel_and_ml/490
52
6
688
Я на Nvidia GTC 2025 в San Jose.

Начал с воркшопа по квантизации, прюнингу и дистилляции моделей - довольно интересно. Nvidia как будто хочет всех пересадить на fp4 - мол, blackwell видеокарты оптимизированы под эту точность. На fp4 будет работать и персональный маленький пека для LLM’ок Nvidia Digits. Я доставал дядю из Nvidia вопросами и он, похоже, проговорился, что Digits переименовали в Spark - релиз ожидается в мае.

Еще меня записали в первую нидерландскую делегацию на GTC. По сути собрали всех из НЛ в одну группу и завтра устроят тур по конфе, выставке, отвезут на keynote ну и в целом будут один день нас обхаживать, чтоб мы были довольны и купили много видеокарт, само собой.

Вечером иду на спец-ивент для startup’ов и VC, где можно за коктейлями поклянчить деньги на свои идеи.

Ну и еще я участвую в розыгрыше 5090, пожелайте удачи!

P.S. Летел из Амстердама в Сан-Франциско 11 часов и капитально отсидел себе жопу.
17.03.2025, 21:41
t.me/adel_and_ml/489
11
16
551
BotQ от Figure.

Помните роботов Figure? Это которые раскладывали тарелки и одежду, сотрудничали (а потом перестали) с OpenAI и работают на заводах BMW таская и раскладывая железяки.

Так вот, компания Figure объявила о запуске BotQ - своего завода по производству роботов. Завод значит масштаб: текущая мощность - 12000 роботов в год. Планируют расти и дальше и заделать аж 100 000 гуманоидных роботов за 4 года.

Под капотом у них две модели: S2 (7B VLM) обрабатывает изображение, состояние и команду, создавая латентный вектор. S1 (80M трансформер) управляет роботом на 200 Гц, используя этот вектор.
Вот тут подробнее.

Пора прекращать уже издеваться над роботами, их числа растут 🫠
15.03.2025, 20:21
t.me/adel_and_ml/488
3
5
506
Выбираю себе, что посмотреть на Nvidia GTC 2025, а там такое 🙈

P.S. основная часть, понятно, на английском, но был удивлен увидеть это в принципе
13.03.2025, 12:34
t.me/adel_and_ml/487
1
2
Выбираю себе, что посмотреть на Nvidia GTC 2025, а там такое 🙈

P.S. основная часть, понятно, на английском, но был удивлен увидеть это в принципе
13.03.2025, 12:33
t.me/adel_and_ml/486
25
22
783
Gemma 3 подъехала. Теперь мультимодальная.

- Размеры от 1, 4, 12 и 27B
- Поддержка визуального контента
- Расширенная языковая база - 140 языков
- Контекст до 128 тысяч токенов
- Сниженный объем KV-кэша (чтоб не взрывался при длинном контексте)
- Превосходит Gemma2 во всех версиях
- Улучшенные математические и языковые способности
- Gemma 3-4B конкурирует с Gemma2-27B
- Gemma3-27B сравнима с Gemini-1.5-Pro

Report
Веса

P.S. опять свои пайплайны переключать, что ли..
12.03.2025, 10:10
t.me/adel_and_ml/485
9
732
5.03.2025, 22:05
t.me/adel_and_ml/481
13
9
752
GPT 4.5 и правда неплохо шутит. 🙃 Подсмотрел тут.
5.03.2025, 22:05
t.me/adel_and_ml/480
9
749
5.03.2025, 22:05
t.me/adel_and_ml/483
11
873
5.03.2025, 22:05
t.me/adel_and_ml/484
9
733
5.03.2025, 22:05
t.me/adel_and_ml/482
33
700
34 k
OpenAI по слухам планирует продавать AI-агентов за $20 000 в месяц: они помогут в научных исследованиях и сложной работе.

Компания рассчитывает, что такие агенты в будущем принесут 20–25% всей выручки. Об этом пишет The Information со ссылкой на источники, знакомые с планами OpenAI.

По данным издания, OpenAI обсуждала с инвесторами такие тарифы:

- $2000 в месяц для специалистов эээ умственного труда с высоким доходом (в оригинале high-income knowledge workers)

- $10 000 для разработчиков ПО

- $20 000 (!) для AI-агентов, предназначенных для научных исследований уровня PhD.

SoftBank, один из инвесторов OpenAI, уже готов вложить $3 миллиарда в развитие этих продуктов в 2025 году.

Ценники все ближе к человеческой зарплате 🫣 иногда годовой..
5.03.2025, 20:45
t.me/adel_and_ml/479
47
46
818
Claude в Cursor попытался заменить gpt4 на себя в коде 🙃

Отсюда
1.03.2025, 13:43
t.me/adel_and_ml/478
30
11
676
Пасхалки с лайв презентации GPT 4.5 ^^
27.02.2025, 23:05
t.me/adel_and_ml/477
11
25
795
Diffusion LLMs

На днях ко мне подошел коллега и спросил про диффузионные модели. Одна из его протеиновых моделей - RF Diffusion - основана именно на них, и коллеге было интересно, что это за зверь и в чем разница с другими. Я ему объяснял про диффузии и генерацию картинок против авторегрессии и генерацию текста.

Но оказывается, текст пытаются генерировать и с помощью диффузий тоже. Выглядит это немного инопланетно: сначала появляется какой-то мусор и шум из слов, который постепенно преобразуется во что-то адекватное (ну как при генерации картинок - сначала шум, потом детали). На видео справа пример генерации кода моделью Mercury от Inception Labs.

Деталей модели, к сожалению, никаких. Есть только скоростные характеристики. Дизайна обучения, размера, метрик пока не опубликовали. Но есть демо и api для enterprise. Надо включить diffusion effect в правом верхнем углу.

Из open-source мира есть LlaDa - тут уже много деталей.

Интересный подход.
27.02.2025, 10:41
t.me/adel_and_ml/476
27
18
654
И такое бывает: 50 человек вчера два часа бастовали у офиса OpenAI в Сан-Франциско с призывом остановить ИИ 🤡
24.02.2025, 13:37
t.me/adel_and_ml/475
Repostar
33
36
468
Пока небольшой комментарий к новостям про то, что Майкрософт создали какой-то супер-пупер квантовый компьютер. Спойлер алерт: это все обман, чтобы набрать классы.

Но по порядку. Квантовые компьютеры делают из разных кубитов: некоторые используют сверхпроводящие микросхемы (как IBM и Google), некоторые — ионы (IonQ например), некоторые — фотоны (Xanadu). Ну и есть много других вариантов. Самая большая проблема с квантовыми компьютерами в том, что квантовая запутанность в них очень легко разрушается минимальным внешним воздействием. Поэтому эти комьютеры стараются изолировать от внешнего мира как можно лучше: засовывают в супер-криостаты, используют лучшие материалы и т.д.

Среди этих подходов выделяется один: топологические квантовые компьютеры. Точную работу описать довольно сложно, но попробую такую аналогию. Представьте, что у вас есть железная дорога типа Brio и вы можете катать по ней туда-сюда вагончики. А еще можете пересекать пути, делать мосты и т.д. Общая структура вашей дороги (как именно они пересекаются, сколько пересечений и между какими путям и т.д.) является ее топологией. В этих пересечениях реализуются вентили компьютера (т.е. логические операции). Так вот, внешний мир действует на вагончики: они то тормозят, то ускоряются, то вибрируют, то вообще пропадают. В обычном квантовом компьютере это является основной проблемой: квантовые состояния (вагончики) разрушаются, появляются ошибки. Но в топологическом квантовом компьютере операции зависят не от одиночкых вагончиков, а от общей структуры путей, а она остается постоянной и не подвержена влиянию внешнего мира (почти). Потенциально это очень мощный инструмент для реализации квантовых компьютеров, так как ему не страшен внешний мир.

На практике никто не знает, как именно это сделать. Вагончики должны быть очень специальными, чтобы реализовать такой компьютер. Это должны быть квазичастицы, которые называются анионы и обладают очень необычными свойствами. Они существуют в определенных двумерных материалах в определенных условиях (возможно). Майорановские фермионы, о которых вы слышали в новостях про Майкрософт — пример таких частиц.

Ура, введение готово, пора перейти к драме. Пока IBM и Google соревнуются за количество кубитов и пытаются как-то найти способ увеличить их до полезной величины, Microsoft пошли другим путем и пытаются создать топологический квнатовый компьютер. Если у них это получится, они обойдут всех на повороте и унесутся за горизонт. Но пока попытки, мягко говоря, не внушают доверия.

Из года в год они публикуют результаты про открытие и изучение этих самых Майорановских фермионов в самых престижных журналах. Из года в год в этих результатах находят ошибки, неверную статистику и прямой подлог и статьи отзываются (таких статей уже набралось не одна и не две, можно вот тут эпичный тред посмотреть). Т.к. это майкрософт, публиковать данные они отказываются (NDA и все такое) и верифицировать никак не получается. Но на каждой статье они собирают хайп, лайки и инвестиции — что еще нужно. Вот и нынешние "новости" — ровно из той же оперы. Те же авторы, один из рецензентов — главный автор прошлых отозванных статей, те же проблемы с данными и их доступностью, и т.д. Нет никаких оснований доверять этому. В целом, научное комьюнити давно уже крутит пальцем у виска, и главной загадкой остается вопрос, почему их вообще продолжают публиковать (хотя это и не загадка никакая, всем все понятно, кто за этим стоит).

В общем, не верьте хайпу! Я нарочно не даю ссылки на новости или статью, чтобы не разгонять этот хайп дальше. В целом, любые новости про квантовые компьютеры всегда можно делить на 10-100, но в особенности когда говорят про "прорыв, которого еще никогда не было". Это уж почти наверняка какая-то лажа.
20.02.2025, 16:13
t.me/adel_and_ml/474
2
2
510
В комментах подкинули классный пост с критикой
20.02.2025, 16:13
t.me/adel_and_ml/473
29
47
704
Majorana 1

Тут у нас, похоже, происходит революция в квантовых компьютерах и совершают её Microsoft. Научную статью опубликовали в Nature, а с MS уже сотрудничает DARPA, так что все признают, что это не булшит. Давайте попробуем разобраться.

Итак, Microsoft представил квантовый процессор Majorana 1, разработанный используя новый материал (!) (топо-проводник), который образует уникальное новое состояние вещества(!). Это позволяет делать гораздо более стабильные, маленькие и масштабируемые кубиты для квантовых компьютеров. В одном чипе Majorana 1 всего 8 кубитов, но MS утверждают, что их несложно скейлить. В результате они хотят (и, судя по всему, могут) построить прототип мощного квантового компьютера с миллионами кубитов (это очень-очень много) за несколько лет, а не десятилетий.

Тут интересно ещё и вот что: основной прорыв связан с открытием нового класса материалов - MS его называют топо-проводники. Они позволяют реализовать штуку под названием "топологическая сверхпроводимость" – необычный вид сверхпроводимости, в котором возникают состояния, защищённые от локальных возмущений, что даёт возможность устойчиво хранить квантовую информацию. Тут совсем крышеснос, потому что по сути это - новое состояние материи, которое ранее существовало лишь в теории. А стало возможным на практике благодаря разработке и производстве управляемых затворами устройств, сочетающих арсенид индия (полупроводник) и алюминий (сверхпроводник). При охлаждении до температуры, близкой к абсолютному нулю, и настройке магнитными полями эти устройства образуют топологические сверхпроводящие нанопровода с нулевыми модами Майораны (Majorana Zero Modes - MZM) на их концах. Проще говоря, нанопровод с MZM – это крошечный квантовый проводник, в котором на концах появляются квазичастицы, пригодные для создания стабильных квантовых кубитов. Эти квазичастицы называются майорановские фермионы и они существовали только в теории до сегодняшнего дня. Microsoft утверждают, что нашли способ создавать и контролировать их.

В общем, квантовые компьютеры потихоньку становятся реальностью, в удивительное время живем!

Блог пост от MS.

Чуть более технический пост от MS.

Статья в Nature.
20.02.2025, 15:42
t.me/adel_and_ml/472
1
20.02.2025, 09:47
t.me/adel_and_ml/471
40
52
841
Grok 3 временно сделали бесплатным для всех.

Временные рамки: «Пока наши сервера не расплавятся»
20.02.2025, 09:47
t.me/adel_and_ml/470
31
41
1.1 k
Perplexity Deep Research

Еще один сервис по умному и глубокому поиску, теперь от Perplexity и бесплатно.

Показывает 20.5% на Humanity’s Last Exam (но это, кажется, экспертная платная версия). У OpenAI 26%.

Умеет примерно всё то же самое, что и версия от OpenAI:
- делает десятки поисковых запросов
- читает сотни источников
- размышляет (reasoning) по найденному
- может кодить под капотом
- тратит несколько минут на один запрос
- пишет отчеты и сохраняет их в pdf

Бесплатная версия, похоже, немного урезанная. А платным подписчикам за $20 обещают expert level researcher со странным ограничением в 500 запросов в день.

Судя по всему основное преимущество OpenAI в специальной версии модели о3, которая и создает магию - все таки сложно с ними соревноваться. Но очень приятно, что Perplexity уже дают бесплатный доступ к чему-то такому.

https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research

P.S. Deep Research оказался настолько интересным сервисом, что делают его все, при этом не меняя названия. 🙃
14.02.2025, 22:51
t.me/adel_and_ml/469
21
853
38 k
Art-выставка в Японии, где на вас пытается напасть робо-собака, прикованная цепью к стене. 🫠

Отсюда
14.02.2025, 21:36
t.me/adel_and_ml/468
28
825
55 k
Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 включи в себя o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию. Plus и Pro будут включать голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
12.02.2025, 22:35
t.me/adel_and_ml/467
17
12
380
Один из исследователей OpenAI поделился графиком насыщения бенчмарков за прошедшие годы. С такой скоростью мы просто перестанем успевать создавать новые тесты. 🤷‍♂️
11.02.2025, 12:32
t.me/adel_and_ml/466
16
22
491
Киберпанк, начало
10.02.2025, 11:06
t.me/adel_and_ml/465
14
41
501
Новое видео Карпатого - Deep Dive into LLMs like ChatGPT.

https://www.youtube.com/watch?v=7xTGNNLPyMI

Этот материал предназначен для широкой аудитории и представляет собой детальное погружение в технологию Large Language Model (LLM), которая лежит в основе ChatGPT и связанных продуктов. В нём рассматривается полный цикл обучения моделей, включая ментальные модели их «психологии» и рекомендации по эффективному использованию в практических приложениях.

Мы охватываем все основные этапы:
1. Pretraining: данные, tokenization, внутренняя структура Transformer neural network (вход/выход, внутренние механизмы), инференс, пример обучения GPT-2, примеры инференса Llama 3.1 base.
2. Supervised finetuning: данные для диалогов, «LLM Psychology» (галлюцинации, использование инструментов, знание/рабочая память, самопознание, модели нуждаются в tokens для мышления, орфография, «зубчатый интеллект»).
3. Reinforcement learning: практика делает совершенство, DeepSeek-R1, AlphaGo, RLHF.
5.02.2025, 22:49
t.me/adel_and_ml/464
22
18
666
OpenEuroLLM, или как Евросоюз пытается в AI.

Сегодня анонсировали семейство open-source моделей от ЕС для ЕС. С одной стороны это все страшный стыд, с другой - людям нравится медленный и административный подход ЕС, и в этом даже просматривается некая логика.

Давайте я постараюсь объяснить стыд и в то же время побуду адвокатом дьявола.

Итак, Европейская Комиссия (!) сделала анонс OpenEuroLLM в твиттере. Анонс выглядит больше как релиз - складывается впечатление, что модели уже есть. Но это не так. И вообще говоря, Еврокомиссия- последнее место, где такой анонс ожидаешь увидеть. Естественно, в комментах им напихали в панамку.

Вот что вообще происходит.

ЕС собрал кучу вузов, стартапов и компаний из разных стран в проект OpenEuroLLM. Среди компаний, кстати, нет Mistral - ну вы понимаете, собрали лучших из лучших.

Хотят выпустить открытые модели, поддерживающие все языки ЕС. Вот, собственно, и все. При ближайшем рассмотрении анонс оказывается о том, что модели прошли какой-то там бюрократический стандарт.

В общем, все грустно, медленно и тухло.

С другой стороны, мои коллеги и разные люди с конференций и митапов говорят мне, что им нравится такой подход. Мол, все эти AI модели неизведанная и опасная дичь. Надо подождать, пока станет понятно, как с этим всем безопасно работать. И сделать свои модели, в которых мы будем уверены. А то всякие OpenAI чёрти что творят: данные наворовали, модели biased, хакать их легко, галлюцинируют только так. Ну с этим просто невозможно спокойно жить!

Мне кажется, в этом весь ЕС - люди голосуют и выбирают понятное, безопасное и спокойное. А все инновации под это по определению не попадают.

Тут у меня лично возникает диссонанс. С одной стороны Европа мне нравится именно равномерными секьюрностью и высоким уровнем жизни в целом. С другой стороны, я кайфую от безостановочного AI фестиваля.

Вот и как быть?
4.02.2025, 21:20
t.me/adel_and_ml/463
14
16
627
Есть такой бенчмарк AI моделей - Humanity’s Last Exam.

Это серьёзный тест, собранный тысячей экспертов из 50 стран, которые предложили десятки тысяч сложных вопросов. Отобрали в итоге 3000 самых трудных по 100+ дисциплинам. Представили его в конце января, и ни одна модель на тот момент не набирала 10%. OpenAI o1 набрала 9.1%, а DeepSeek r1 - 9.4%.

Сейчас появилась оценка о3-mini - 13% в режиме high (дольше думает).

Авторы бенчмарка ожидают модель с точностью в 50% к концу года. Вот что они пишут, по этому поводу:
С учетом стремительного развития ИИ, вполне возможно, что модели превысят 50% точности на HLE к концу 2025 года. Высокая точность на HLE продемонстрирует уровень эксперта в решении закрытых, проверяемых вопросов и передовых научных знаний, но сама по себе не будет свидетельствовать о способности к автономным исследованиям или наличии «искусственного общего интеллекта» (AGI). HLE оценивает структурированные академические задачи, а не открытые исследования или творческое решение проблем, что делает его целенаправленной мерой технических знаний и логики. Возможно, это последний академический экзамен, который мы будем давать моделям, но далеко не последний тест для ИИ.

Но есть ощущение, что о3 (не мини) в режиме high уже там. Скорость насыщения таких бенчмарков поражает. Кажется, что скоро они станут менее релевантны и наличие экспертных моделей будет обыденностью. Видимо, следующее поколение тестов будет уже на агентность и автоматизацию - это явно следующий шаг в ИИ и там много ценности.

А ведь с выхода ChatGPT не прошло и трех лет.
2.02.2025, 13:14
t.me/adel_and_ml/462
16
28
570
Ребята из ARC-AGI протестировали DeepSeek r1 и r1-Zero, получив 15.8% и 14% соответственно. Для сравнения, OpenAI o1 в low compute-режиме показал 20.5%.

Но это не самое интересное.

Главное отличие r1-Zero – отсутствие Supervised Fine-Tuning (SFT), модель обучалась только Reinforcement Learning (RL). То есть не использовались данные, подготовленные людьми. DeepSeek добавили SFT в r1, так как без него r1-Zero смешивала языки и её рассуждения было сложно читать.

Однако ARC-AGI считает, что это не баг, а фича: на их тестах модель работала хорошо, без явной несвязанности.

Их выводы заставляют задуматься:
1. SFT не обязателен для точного пошагового рассуждения (CoT) в верифицируемых областях.
2. RL-обучение позволяет модели создавать собственный предметно-специфический язык (DSL) в пространстве токенов.
3. RL повышает универсальность CoT в разных областях.

Занятное чтиво: https://arcprize.org/blog/r1-zero-r1-results-analysis
30.01.2025, 00:49
t.me/adel_and_ml/461
13
12
532
Оформил вчерашний текст одним постом (телега разбила на два)

https://telegra.ph/Deepseek-r1-fakty-mify-i-spekulyacii-01-29
29.01.2025, 11:31
t.me/adel_and_ml/460
31
21
733
✅ DeepSeek r1 крутая модель, которая встряхнула больших игроков вроде OpenAI и заставила их напрячься.
Да, и да. Модель и правда классная, да еще и открытая. Читать цепочку ее рассуждения очень интересно и залипательно, а в веб версии к ней прикрутили еще и поисковик и ее можно использовать, как Google Deep Research. И все это бесплатно в веб версии. При этом модель открыта и потенциально я могу запустить ее у себя на работе на 8 x H100. Более крутых открытых альтернатив, мне кажется, нет. А при этом по API она стоит копейки, в сравнении с o1. Кажется, что именно из-за r1 Сэм Альтман решил дать доступ к o3-mini аж бесплатно. А Google начали хвалиться тем, что их последняя думающая модель Gemini доступна бесплатно, обладает большим контекстным окном и к ней скоро прикрутят поиск. Тем не менее, независимые бенчмарки и оценки которые я видел говорят о том, что r1 уступает o1. По моим личным ощущениям и тестам это тоже так.

❌ Есть 6 версий DeepSeek r1 разного размера.
Это не так, r1 на самом деле один и он MoE на 671 миллиард параметров. Все остальное, это файн-тюны Qwen и Llama. Самое важное здесь понимать, что в них нет Reinforcement Learning этапа обучения, который и делает всю магию r1. Если вы видите новость о том, что кто-то запустил r1 на телефоне - это туфта. 

❓Из-за deep seek упали фондовые рынки.
Откровенно говоря, я не знаю. Может оно и повлияло, но лично мне это кажется сомнительным. Хотя определенная логика тут, конечно, есть: опасения по конкурентоспособности американских бигтехов и сомнения в необходимости больших затрат в инфраструктуру ИИ. Но кажется, что в мире есть факторы и посильнее.

Ну и пара моих личных спекуляций (вообще не претендую на истину).
DeepSeek дали нам классную модель и подвинули Meta на фронте опенсорса - а это ничего себе. Лично мне кажется, у них есть уже и другие модели (скажем r2) и скоро мы о них услышим. В то же время, я думаю дешевые цены на r1 долго не продержаться, мне кажется тут китайцы демпингуют.
Ждем продолжения сериала.🍿
28.01.2025, 18:02
t.me/adel_and_ml/459
22
25
674
Я долго не писал про Deep Seek r1, потому что было очень много информации для переваривания. Кругом слухи, интервью, юзкейсы, восхищения и подозрения. Сейчас, мне кажется, уже можно разобраться в некоторых утверждениях. Поехали:

❌ DeepSeek потратили $6 миллионов на обучение модели
Не совсем так. DeepSeek потратили эти деньги только на финальный запуск обучения, из которого получилась сама модель, которой мы пользуемся. То есть в эту сумму не входят все предыдущие эксперименты (а их точно было много), а также косты на людей, данные, видеокарты. Более того, r1 это модель поверх другой базовой модели - DeepSeek-V3. Очевидно, она тоже возникла не из воздуха и не бесплатно. Ну и еще вопрос: откуда данные для обучения? Понятно, что часть они собрали сами. Но похоже еще часть насинтезировали с других моделей - как минимум это модели OpenAI, Anthropic и, внезапно, Yandex. Такой вывод можно сделать из того, что r1 нет-нет, да и представится чужим именем. Ну а насинтезировать данные - это тоже небесплатно, само собой.

❌ DeepSeek r1 - это сторонний проект (side project).
Тоже сомнительно. Это подается под соусом "чуваки по фану сделали модель уровня о1 на коленке и за плошку риса". Разлетелся этот тейк после твита Han Xiao, хотя он к deep seek особого отношения не имеет. Между тем, DeepSeek финансируется исключительно китайским хедж-фондом High-Flyer. Хедж-фонд — это такой инвестиционный фонд для богатых, который использует сложные и рискованные стратегии, чтобы заработать больше денег. Так вот этот High-Flyer вертит активами на $7 миллиардов, а его основатель - Лианг Венфенг - является и основателем DeepSeek. То есть это буквально один и тот же человек. Согласно Reuters, в марте 2023 года High-Flyer написал в WeChat (китайская соцсеть), что они выходят за рамки трейдинга и концентрируют ресурсы на создании "новой и независимой исследовательской группы для изучения сущности AGI". Ну и позже в этом же году появилась компания DeepSeek. Уже не звучит, как сторонний проект, не так ли?

✅ DeepSeek обошлись небольшим количеством видеокарт.
Кажется, что это отчасти так. Но только отчасти. Они репортят, что для базовой модели V3 они использовали 2048 штук H800. Утверждается, что DeepSeek не использовали видеокарты H100 из-за санкций США, которые сделали их труднодоступными. Вместо этого они оптимизировали свою модель и процесс обучения для работы с H800, у которых ниже пропускная способность памяти, но которые можно легально купить. Для преодоления ограничений H800 они пошли на разные хитрости вроде программирования на уровне PTX (низкоуровневый язык для GPU), чтобы эффективно управлять коммуникацией между видеокартами, и использование вычислений в FP8, прогнозирование сразу нескольких токенов, использование Mixture of Experts. В общем, голь на выдумку хитра и это очень впечатляет, слов нет. Но и здесь стоит учесть две вещи. Во-первых, 2048 штук H800 - это порядка $50 миллионов (side project, ага). Во-вторых, CEO  Scale AI Александр Ванг утверждает, что у DeepSeek есть 50.000 штук H100 (то есть они их купили в обход санкций). Это слух, который невозможно подтвердить или опровергнуть. Илон Маск на эту инфу написал "Obviously", но он тот ещё актер одного театра. Есть мнение, что этот слух пошел от другого твита, где утверждается, что у DeepSeek 50 тысяч видеокарт Hopper, без уточнения каких конкретно (то есть возможно и H800). Так или иначе, источник этих слухов "trust me bro", но я нисколько не удивлюсь, если это окажется правдой.
28.01.2025, 18:02
t.me/adel_and_ml/458
30
17
600
26.01.2025, 13:09
t.me/adel_and_ml/457
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa