Neural Deep – @neuraldeep • Seine.pro

Your trial period has ended!

For full access to functionality, please pay for a premium subscription

NE

Neural Deep

https://t.me/neuraldeep

Channel age

Created

Language

Russian

2.84%

ER (week)

7.41%

ERR (week)

Привет, меня зовут Валера и это записки Fullstack CEO рассказываю про решения сделанные на базе AI

Невнятный r&d моё хобби

Трансляция идей по умолчанию

Show more

Messages Statistics

Top categories

Main categories of messages will appear here.

Top mentions

The most frequent mentions of people, organizations and places appear here.

Found 121 results

4 339 subscribers

1

1

50

Вчера мы проводили обучение целому отделу ИБ (на тему безопасности и LLM)

Стартовали с того что же такое LLM и как они устроены закончили нашим видением на будущее

Обсудили базовые концепции GuardRails
Прошлись по базовым защитам чат-ботов
Проговорили про новые уязвимости, которые может создать внедрение LLM

Поделились опытом построения RAG систем и разграничения прав доступа на корпоративном уровне

Из нового в нашем формате это был лайв кодинг на примере разработки простых систем тестирования гипотез ллм через Курсор

04/25/2025, 08:49

t.me/neuraldeep/1412

4 339 subscribers

1

04/25/2025, 08:49

t.me/neuraldeep/1413

4 339 subscribers

23

6

874

gpt-image-1 по API Openai

Но не всем!
Сначала пройди верификацию и как пишут в чатах даже на РФ права работает

Гоу тестить бота и ломать, его написал курсор за 2 часа
всем 1 фри генерация в сутки в low режиме

Я так же сначала получил доступ и верифицировал свою организацию (заняло это не более 5 минут) полет стабильный!

Сгенерировано по запросу: "Cобака бежит по дороге она смотрит на меня глазами красными и в костюме лебовского
На заднем плане стоят люди у обрыва и рассыпают прах как из фильма"

Антропоморфный накачанный кот породы экзот идёт по улице и на него влюбленным взглядом смотрят антропоморфные кошки в разных платьях

Это ок что она кадры из фильма подсовывает?

Гоу тестить пока не вырубил бота всем фри 1 генерацию

1024х1024 high (скорость около 30-50 секунд
За 15 картинок вышло 3,7 бакса или 20 рублей за картинку)

@gptimage1bot

04/24/2025, 00:41

t.me/neuraldeep/1411

4 339 subscribers

1

Сгенерировано по запросу: "Cобака бежит по дороге она смотрит на меня глазами красными и в костюме лебовского
На заднем плане стоят люди у обрыва и рассыпают прах как из фильма"

04/24/2025, 00:41

t.me/neuraldeep/1410

4 339 subscribers

43

94

1.8 k

1M контекст - фейк? Тесты NoLiMa показали что RAG на длинных контекстах почти мертв? 💀

Спойлер нет

Наткнулся на интересное исследование Adobe Research про новый бенчмарк NoLiMa (Long-Context Evaluation Beyond Literal Matching)

В отличие от классического подхода "иголка в стоге сена", здесь тестируется способность модели работать с контекстом когда нет прямых лексических совпадений
Что такое NoLiMa и чем отличается?

Классические тесты (needle-in-haystack) позволяют моделям искать прямые совпадения слов
NoLiMa заставляет модель делать семантические связи без прямых текстовых совпадений
Требует от модели более глубокого понимания контекста и ассоциативного мышления

- Протестировано 12+ моделей с поддержкой контекста от 128K до 10M токенов
- Даже топовые модели значительно деградируют на длинных контекстах
- GPT-4o падает с 99.3% на коротких контекстах до 69.7% на 32K

У большинства моделей провал производительности ниже 50% от базового результата

| Модель | Заяв.| Эфф| Score | 4K |
|-------------|-----------|-------|-------|
| GPT-4o | 128K | 8K | 99.3% | 95.7% |
| Llama 3.3 ..| 128K | 2K | 97.3% | 81.5% |
| Llama 4 Ma..| 1M | 2K | 90.1% | 68.8% |
| Gemini 1.5 .| 2M | 2K | 92.6% | 75.4% |
| Claude 3.5..| 200K | 4K | 87.6% | 77.6% |

Почему это важно для наших RAG систем?
В реальном мире информация редко лежит в тексте буквально
Чаще нам нужна модель, способная делать выводы из контекста, находить скрытые связи и работать с разными формулировками одной и той же мысли

Эффективный контекст большинства моделей составляет ~4K токенов, что существенно ниже заявленных значений

Реальные кейсы обычно требуют работы с гораздо большими объемами текста
Что особенно интересно
Отдельно авторы тестировали модели с CoT/reasoning, и результаты обнадеживают:
- GPT-o1 (рассуждающая версия) показывает 31.1% на 32K против базового 18.9% у GPT-o3 Mini
- Llama 3.3 70B с CoT улучшила результат с 8.9% до 10.1% на сложном варианте теста

Stay tuned!

Буду следить за развитием темы, похоже что NoLiMa может стать новым стандартом для оценки RAG и других систем работы с длинным контекстом 💪

04/23/2025, 21:19

t.me/neuraldeep/1409

4 339 subscribers

13

14

998

AI Call Center: отвечаем на вопросы! Часть 2 🎙

В прошлый раз мы рассказали об опыте разработки AI Call Center, и в комментариях появились классные вопросы!
Собрал ответы от Артёма на самые интересные из них👇

Q: Какие еще ограничения есть?

A: Существует три важных ограничения:

1️⃣ Техническое: цена/пропускная способность провайдера IP телефонии.

2️⃣ Юридическое: в некоторых юрисдикциях боты не могут звонить сами и навязывать/рекламировать услуги. Но могут отвечать на звонки!

3️⃣ Человеческое: Далеко не всегда люди готовы к продуктивному диалогу с ботами. Эти моменты должны быть заложены в логике и сценарии

Q: Как вы решаете проблемы с телефонией?

A: Мы раскурили свою инфраструктуру телефонии и работаем напрямую с провайдером через Asterisk. Пришлось буквально переписать всё на уровне низкоуровневых протоколов и ивентов, т.к. на Python нет адекватных библиотек для этого.

Интересно, что для осуществления одного звонка задействовано множество промежуточных акторов:
- Провайдеры разного уровня
- Системы анализа/записи на уровне государства
- Анализаторы/спам-фильтры
- Автоответчики
- И только потом сам пользователь

Отдельная головная боль - достаточное количество локальных номеров. Есть более "белые" номера (дорогие), есть "одноразовые", которые быстро отлетают в бан и их надо вовремя ротировать

Q: Сколько и какого железа нужно для обслуживания разного количества потоков?

A: Набор из STT, TTS, VAD и Denoise нейронок прекрасно умещается на 20-30 ГБ любого GPU. Для разработки мы взяли RTX6000, чтобы не париться. Смелые могут часть даже на CPU запустить, но это навредит таймингам ответа.

CPU/RAM особых требований нет - зависит от бэкенда, БД и нагрузки. Сборка с 24 CPU и 80-120 ГБ RAM способна потянуть 30 одновременных сессий на несколько тысяч абонентов.

Первое узкое место - LLM. Llama3.3-70B тянет ~13 потоков на пределе на H100. Для высокоресурсных языков можно брать радикально меньшие модели.

Q: Какие у вас объемы звонков и сценарии использования?

A: У нас сотни тысяч неинтерактивных обзвонов (проговаривание предзаписи) + голосовые OTP звонки. Для интерактивных сценариев объемы меньше (тысячи) - сбор обратной связи, уточнение причин проблем в работе с системой

Основные запросы бизнеса:
- Ответы по цели взаимодействия (опрос/обратная связь)
- Качество итогового транскрипта для последующей разметки/классификации

Q: Насколько качество отличается от человека-оператора?

A: Сильно зависит от языка и сложности сценария. По субъективной оценке и разбору транскриптов, разница может составлять от 3-5% для английского до 30% на хинди.

Неинтерактивные обзвоны производятся в любом случае ботами. Для интерактивных сценариев работа колл-центра возможна, но гораздо более затратна по внедрению новых сценариев и меньше масштабируется, особенно когда мы звоним на разных языках.

P.S. Больше вопросов? Пишите в комментах, соберём еще один выпуск!
А все технические вопросы можно задать в чате https://t.me/neuraldeepchat

04/23/2025, 15:19

t.me/neuraldeep/1408

4 339 subscribers

Repost

20

13

743

generate-rules.mp4

В Курсоре появилась генерация правил проекта

Запускается так: /Generate Cursor Rules

В моем проекте курсор создал список всех файлов и краткое описание функциональности каждого файла. Думаю, это лучше поможет курсору ориентироваться в структуре проекта и сохранять чаще информацию там где надо, а не там, где почему-то неожиданно захотелось

Так же для каждого из правил можно указать его способ его использования, если я правильно понял

04/23/2025, 15:03

t.me/neuraldeep/1407

4 339 subscribers

31

59

904

Свой AI Call Center! Как построить? Опыт разработки длиною в год

Многие спрашивали в комментах про AI call center и я решил собрать материал! Позвал Артёма, технического архитектора (TA) стартапа, разрабатывающего подобную платформу
Вот главные инсайты за год реальной работы

Сразу к делу 👇

Что такое AI call center?
- Система для автоматизированных разговоров с клиентами
- Локальное onpremise решение (безопасность!)
- Интеграция STT, LLM и TTS компонентов
- Нетривиальный пайплайн обработки в реальном времени
- Поддержка 20+ языков (крутое преимущество для международного бизнеса)

Архитектура
- STT распознаёт речь (важно работать с односложными ответами!)
- LLM генерирует ответы (нужен правильный контекст)
- TTS озвучивает текст в голос
- GuardRails для безопасности на базе отдельной LLM
- Балансировщик нагрузки для масштабирования

Типичные проблемы

Безопасность
- Всё onpremise в базе (хотя пробовали разные варианты)
- Отдельный GuardRails, сходный с NVIDIA
- GR работает как "рубильник" и разрывает соединение при отклонениях
- Работает параллельно основной обработке, не замедляя пайплайн

❌ OpenAI-realtime плохо работает не на английском - путает языки входа/выхода

Масштабируемость
- Изначально система проектировалась на ~100 одновременных сессий
- Основной bottleneck — это LLM
- H100 тянет ~10 сессий для моделей типа Llama 70B+
- На первом этапе хватит 10-30 одновременных сессий для тестирования гипотез

❌ Не завязывайтесь на внешние нейронки в production! OpenAI не всегда стабильна, тайминги ответов непредсказуемы

⚠️ Критично: первый чанк озвученного текста должен быть готов за 1-1.5 секунды!

Затраты на разработку
- 1-2 NLP специалиста, бэкенд разработчик, 25% времени DevOps
- Прототип на внешних сервисах: ~1 месяц (качество диалога далеко от человеческого)
- Решение под конкретный язык на opensource +2 месяца
- Эксперименты с собственными нейронками, сбор датасетов и телефония: +6 месяцев

Проблемы с STT
⚠️ Модели ASR/STT заточены под более качественный звук, чем ulaw8000 в телефонии!
- Необходима логика нарезки входного звукового потока
- Модели плохо справляются с распознаванием речи в условиях мобильной связи
- Фоновые шумы и акценты – дополнительная сложность

LLM/TTS решается проще: 11labs даёт хорошее качество генерации голоса, обычной версии достаточно

Проблемы с LLM в диалоге
- Плохо заточены под формат живого диалога
- При подаче сырого транскрипта отвечают в стиле вежливого помощника
- Часто путаются в промпте и сценарии
- Достигнуть sub 1.5 sec на ответ при тюнинге вполне реально

Для низкоресурсных языков задача усложняется в разы — LLM с неточным контекстом и малой выборкой накапливает ошибку x2.
Особенно это заметно при переходе от частых фраз к нетипичным высказываниям, где модели начинают "плыть" и терять основную нить разговора

Организация логики разговора
- Юзер закончил говорить или сделал паузу?
- Юзер ждёт ответа или будет следующая фраза?
- Как обрабатывать дополнения к фразе?
- Как реагировать на перебивания?
- Как вернуть разговор в сценарий при отклонении?
- Если юзер молчит — это пауза или провайдер не передал звук?

Считаю для начала проекта надо сразу заложить эти челленджи и иметь 2-3 решения в рукаве. В нашем случае помогли промежуточные прототипы и вспомогательные LLM

Отдельно отмечу важность правильной инфраструктуры - подготовка к скачкам нагрузки, отказоустойчивость и мониторинг качества диалогов критичны!
На практике основные проблемы возникают не в алгоритмах, а в инфраструктурных решениях.
Один сценарий, где LLM начинает генерировать бесконечныя текст, может положить всю систему, если не предусмотреть лимиты и контроли

P.S. Подробнее про компоненты можем рассказать Чат канала тут

Кто строил подобные системы? Делитесь опытом! 💪

04/22/2025, 23:08

t.me/neuraldeep/1406

4 339 subscribers

1

Свой AI Call Center! Как построить? Опыт разработки длиною в год

Многие спрашивали в комментах про AI call center и я решил собрать материал! Позвал Артёма, технического архитектора (TA) стартапа, разрабатывающего такую платформу
Вот главные инсайты за год реальной работы

Сразу к делу 👇

Что такое AI call center?
- Система для автоматизированных разговоров с клиентами
- Локальное onpremise решение (безопасность!)
- Интеграция STT, LLM и TTS компонентов
- Нетривиальный пайплайн обработки в реальном времени
- Поддержка 20+ языков (крутое преимущество для международного бизнеса)

Архитектура
- STT распознаёт речь (важно работать с односложными ответами!)
- LLM генерирует ответы (нужен правильный контекст)
- TTS озвучивает текст в голос
- GuardRails для безопасности на базе отдельной LLM
- Балансировщик нагрузки для масштабирования

Типичные проблемы

Безопасность
- Всё onpremise в базе (хотя пробовали разные варианты)
- Отдельный GuardRails, сходный с NVIDIA
- GR работает как "рубильник" и разрывает соединение при отклонениях
- Работает параллельно основной обработке, не замедляя пайплайн

❌ OpenAI-realtime плохо работает не на английском - путает языки входа/выхода

Масштабируемость
- Изначально система проектировалась на ~100 одновременных сессий
- Основной bottleneck — это LLM
- H100 тянет ~10 сессий для моделей типа Llama 70B+
- На первом этапе хватит 10-30 одновременных сессий для тестирования гипотез

❌ Не завязывайтесь на внешние нейронки в production! OpenAI не всегда стабильна, тайминги ответов непредсказуемы

⚠️ Критично: первый чанк озвученного текста должен быть готов за 1-1.5 секунды!

Затраты на разработку
- 1-2 NLP специалиста, бэкенд разработчик, 25% времени DevOps
- Прототип на внешних сервисах: ~1 месяц (качество диалога далеко от человеческого)
- Решение под конкретный язык на opensource: +2 месяца
- Эксперименты с собственными нейронками, сбор датасетов и телефония: +6 месяцев

Проблемы с STT
⚠️ Модели ASR/STT заточены под более качественный звук, чем ulaw8000 в телефонии!
- Необходима логика нарезки входного звукового потока
- Модели плохо справляются с распознаванием речи в условиях мобильной связи
- Фоновые шумы и акценты – дополнительная сложность

LLM/TTS решается проще: 11labs даёт хорошее качество генерации голоса, обычной версии достаточно

Проблемы с LLM в диалоге
- Плохо заточены под формат живого диалога
- При подаче сырого транскрипта отвечают в стиле вежливого помощника
- Часто путаются в промпте и сценарии
- Достигнуть sub 1.5 sec на ответ при тюнинге вполне реально

Для низкоресурсных языков задача усложняется в разы — LLM с неточным контекстом и малой выборкой накапливает ошибку x2.
Особенно это заметно при переходе от частых фраз к нетипичным высказываниям, где модели начинают "плыть" и терять основную нить разговора

Организация логики разговора
- Юзер закончил говорить или сделал паузу?
- Юзер ждёт ответа или будет следующая фраза?
- Как обрабатывать дополнения к фразе?
- Как реагировать на перебивания?
- Как вернуть разговор в сценарий при отклонении?
- Если юзер молчит — это пауза или провайдер не передал звук?

Считаю, для начала проекта надо сразу заложить эти челленджи и иметь 2-3 решения в рукаве. В нашем случае помогли промежуточные прототипы и вспомогательные LLM

Отдельно отмечу важность правильной инфраструктуры — подготовка к скачкам нагрузки, отказоустойчивость и мониторинг качества диалогов критичны!
На практике основные проблемы возникают не в алгоритмах, а в инфраструктурных решениях.
Один сценарий, где LLM начинает генерировать бесконечныя текст, может положить всю систему, если не предусмотреть лимиты и контроли

P.S. Подробнее про компоненты можем рассказать Чат канала тут

Кто строил подобные системы? Делитесь опытом! 💪

04/22/2025, 23:08

t.me/neuraldeep/1405

4 339 subscribers

10

14

774

Сегодня владельцы телеграм ботов, более 300к MAU, стали получать уведомления о просьбе отключить все сторонние платёжные системы, кроме Telegram Stars, иначе блокировка

По информации такие уведомления получили топ 10 ботов с доступом к различным сервисам, таким как LLM, по подписке

Запасайтесь звёздам для продления подписок

04/22/2025, 20:44

t.me/neuraldeep/1404

4 339 subscribers

14

27

1.0 k

1С Можно ли автоматизировать через VL модели семейства Qwen распознавание сканов товарных накладных?

Взял в проверку картинку и гипотезу с канала 1С PRO: Интеграция + ИИ

В тест взял 7b и 32b и 72b модельку
Так же завез детекцию bbox

По моим наблюдениям и запускам

7b уходила в бесконечный цикл генерации как бы я не старался исправить промпт на таблице её корежило
32b находила все что нужно но почему-то съезжают bbox
72b такая же болезнь что и у 32b

Гипотеза моя была в том что можно распознавать и дететктить bbox на новых типах накладных и допом OCRить поля для повышения уверенности

Но чуда не случилось буду тестировать еще другие файлики текст отличный (расположение bbox кривое)

АНАЛИЗ ДОКУМЕНТА
==================================================

Информация о документе:
--------------------
Тип: ТОВАРНАЯ НАКЛАДНАЯ
Номер: 923
Дата: 02.06.2017

Информация о получателе:
--------------------
Имя: Коршунова Мария
Адрес: 109044, Россия, Москва, 8-я улица Сокольной горы, д.22, кв./оф.203
Телефон: +79629978695

Продукты:
--------------------
# Название Артикул
-----------------------------------------------------------
1 Трансмиссионное масло HONDA ATF-DW1 для АКПП 0.9л, USA 082009008
2 Моторное масло HONDA Motor Oil ULTRA LTD SN 5W30 4L Япония (полусинтетика) 082189974
3 Фильтр масляный 15400RTA003
4 Фильтр воздушный 17220RNAY00
5 Фильтр салонный 80292TV1E01
6 Шайба уплотнительная (18 ММ) 90471PX4000
7 Шайба уплотнительная сливного отверстия масла двигателя/МКПП (14мм) 9410914000

Возможно скан низкого разрешения для bbox поищу сканы лучшего качества

Крутой подход от Ильи в коментах

04/22/2025, 19:15

t.me/neuraldeep/1403

4 339 subscribers

1

Можно ли автоматизировать через VL модели qwen детекцию товарных накладных и отправку данныз в 1C?

04/22/2025, 10:18

t.me/neuraldeep/1402

4 339 subscribers

Repost

38

556

04/20/2025, 17:49

t.me/neuraldeep/1400

4 339 subscribers

Repost

38

559

04/20/2025, 17:49

t.me/neuraldeep/1401

4 339 subscribers

Repost

22

38

563

LLM моделей становится все больше и больше, разобраться в таком зоопарке становится все сложнее и сложнее.

Openrouter придумал интересный способ навести порядок - они проклассифицировали запросы своих клиентов по типам задач (programming, legal, finance и т.д) - и посмотрели в каких случаях какие модели используются.

Как говорится - все гениальное просто 🙃

Ознакомиться с инфографикой можно по ссылке https://openrouter.ai/rankings

P.S: За новость спасибо Валерию Ковальскому, автору канала Neural Deep

04/20/2025, 17:49

t.me/neuraldeep/1399

4 339 subscribers

23

3

736

Еще я иногда помогаю разобраться с локальной архитектурой, когда важна безопасность

Приятно понимать что помогаю и в копилку попадают полезные знания о кейсах

Есть вопросы про AI? Тут в чате собралось много экспертов

04/20/2025, 14:45

t.me/neuraldeep/1398

4 339 subscribers

24

3

590

Обучение внутри red_mad_robot

Алексей Макин рассказывает про технологии!

Выравниваем все понятия по AI
Обсуждаем стратегию
Накидываем вижн на будущее

Считаю очень продуктивно, разобрали общие понятия Agent/RAG/Workflow Agent/MAS

Ну и еще раз прошли по истории

В коменты закинул выжимку от OpenAI/Antropic про агентов

04/18/2025, 14:23

t.me/neuraldeep/1397

4 339 subscribers

Repost

1

Нейронка в процессе своего обучения пытается обобщить из примеров, чтобы построить внутри себя картинку мира сходную с нашей.
Да и задачи существующих LLM немного проще чем у ИИ, от которого мы ждём сверхчеловеческого интеллекта при сохранении пользы для наших, человеческих задач.
Проблема в том, что у нейронки не существует объективной реальности, в рамках которой она могла бы работать Всё зависит от содержания данных обучения и входного контекста. А данные, которые мы сейчас способны скормить, несмотря на то, что составляют всё знания человечества, во много раз меньше чем младенец потребляет, исследует и обрабатывает за несколько месяцев своей жизни.
(Но вообще это некорректное сравнение как раз ввиду неидентичности обучения, на небольших хорошо обусловленных данных спокойно достигаются качественные резы)

Как следствие, следующий предсказанный токен далеко не всегда предсказывается исходя из тех же концепций, в которых думаем мы. А потому ошибки подразумеваются всегда.
Возможно когда-то мы достигнем такой мощи или подхода к обучению, когда точность предсказания (если предположить, что архитектура не изменится) станет около100%. И тогда можно считать, что модель получила человеческое мышление, чтобы считать эту задачу решённой, но пока это не так.
Мы не можем сказать полностью наверняка, почему модель ответила, что 10>11(утрированно) потому что случайно ошиблась как человек или потому что считает, что терракт башни близнецы 11 сентября не так важен как 10 заповедь Божия.

Первое это арифметика, которую юзаем мы. Второе это паттерны, которые неправильно могла глобализовать и привязать к этим цифрам нейронка.

Нейронка хорошо пишет код потому что это достаточно стройная паттернизированная структура формального языка.
Когда мы доверим нейронке проект на 10к строк кода - напишет ли она сущность в соответствии с точным бизнес описанием инженера или применит паттерн, который написан в каждой первой документации к фреймворка?
А если описание неточное, уточнит ли как любой человек непонятный момент или попытается закрыть дыру своими домыслами?

Помня о том, что существующие методы обучения не позволяют напрямую задать базис истин, какие еë веса повлияют на еë рассуждения при просьбе доказать или опровергнуть финансовую пользу от молитвы Меркурию поутру?

Нам важен не только приемлемый простой результат (98% классифицированных объектов на конвеере полностью устроит бизнес, здесь 2%. брака это некоторые потери деняк. 0.01% ошибка, случившаяся в проектировании архитектуры логистической системы на 60 сервисов, где 10rps внезапно оказались больше 1100rps - вызывает подрыв мозгов и не только у всей команды разработки. И проблема не в том, что ИИ не может ошибаться. Проблема в том, что логика при построении человеческой архитектуры и сопутствующих тысячах логических абстрактных взаимосвязях, корректность которых мы ожидаем от ИИ не сработает так, как должна)

Вот примерно эта тонкая штука и отделяет нас от гарантированной замены на ИИ. Пока беспощадная оптимизация будет пожирать самых слабых и нерасторопных

Разумеется есть ещё ограниченные ресурсы, вопрос, как построить лупу обучения, этика-хуетика, безопасность и куча всего, но это в моём мозгу либо ещё более далёкие, либо менее фундаментальные, решаемые задачи.

04/17/2025, 19:29

t.me/neuraldeep/1396

4 339 subscribers

Repost

29

13

563

Что вы знаете про red_mad_robot? Некоторые скажут «это какая-то мобильная разработка”, другие возможно вспомнят какие-то проекты, а третьи вообще полезут гуглить».

А меж тем r_m_r за последние годы превратился в большую группу компаний с экспертизой в разработке GenAI-решений и запуске цифровых бизнесов. Мы не могли пройти мимо такой истории и решили поговорить с Алексеем Макиным, сооснователем r_m_r. До прихода в компанию Леша развивал собственный бизнес в области e-commerce. К команде red_mad_robot присоединился в 2011 году в качестве директора по продажам, а в 2014 году занял должность генерального директора.

Помимо r_m_r Алексей запустил фонд «Яркие точки», ивестирующий в технологические проекты, защитил работу по программе MSc AI and Ethics в Лондоне и активно преподает в МШУ Сколково и ВШБ МГУ.

С Лешей мы обстоятельно поговорили про:
⁃ что из себя представляет r_m_r прямо сейчас и как так получилось что из небольшой студии мобильной разработки «выросло то, что выросло»
⁃ overview того, что происходит с AI в современном мире, и что простым обывателям (и не только им) стоит ждать в ближайшие 3-5 лет
⁃ про внутреннюю культуру r_m_r, подходы к управлению и способность оставаться актуальными в гонке за мозгами
⁃ про настоящее и будущее рынка российской разработки
⁃ и многое другое

Смотрите и слушайте нас на удобных платформах:

Youtube
VK Video
Apple Music
Yandex.Музыка

С вас лайки и шэры, с нас – новые эфиры )

04/15/2025, 17:47

t.me/neuraldeep/1395

4 339 subscribers

Repost

24

1

652

Посмотрел посты блогеров которые по инерции всё ещё следят за анонсами новых продуктов от OpenAI.

Вот краткий пересказ:

Новые революционные модели стали на сколько-то там процентов лучше предыдущих и по мнению экспертов ещё вкуснее умнее.

Они доступны только по API, так что вкусить их смогут только самые упрямые.

На всяких редитах основной вопрос это нейминг, релизить модель 4.1 после 4.5 идея странная.

Лично я надеялся на релиз опенсорс моделей, но видимо придется подождать ещё немного.

04/14/2025, 21:42

t.me/neuraldeep/1394

4 339 subscribers

39

700

04/13/2025, 12:35

t.me/neuraldeep/1393

4 339 subscribers

39

686

04/13/2025, 12:35

t.me/neuraldeep/1391

4 339 subscribers

39

699

04/13/2025, 12:35

t.me/neuraldeep/1392

4 339 subscribers

26

40

650

Создайте свой OpenRouter за 48 часов

Как я объединил 10+ ИИ-моделей в единый API и планирую сэкономить компании 1000 часов в год на интеграции моделей в продукты/проекты

Итак, сразу к проблеме: как вы знаете, существует более чем 10 SOTA провайдеров LLM и не многие повторили опыт OpenAI SDK, а зачем-то пилят свои обёртки!? (Всегда вспоминаю сколько есть ответвлений Linux и каждый считает свое лучшим)

Вашему вниманию — LiteLLM (open-source) адаптер, который оборачивает самых распространённых провайдеров под OpenAI SDK

Что закрыто под лицензией?
Это отчеты и какой-то еще мелкий функционал, но можно копнуть в коде (но мы так делать не будем)
При этом в API LiteLLM есть метод запроса логов, что даёт возможность собрать из него подробный отчёт для своих нужд)

Если рассказывать про быструю настройку, то первых 5 провайдеров я добавил быстро
Из минусов: пришлось брать VPS в Фениксе, так как все диапазоны адресов Hetzner у Google в блоке

Что было сложно добавить, так это (YandexGPT и GigaChat) — они сложны и веселы, всё как следует нашей душе:

1) Я подумал, что можно скормить проект LiteLLM в Cursor и попросить подкинуть туда новых провайдеров скормив туда документацию
2) Я понял, что это плохая идея и я прокопаюсь очень и очень долго, не зная всех особенностей проекта.

Озарение: Погуглив я понял, что есть два прекрасных репозитория, которые позволяют упаковать что YandexGPT(все модели лежат списком если что в json по другому никак), что GigaChat в OpenAI SDK и передать в LiteLLM как кастомных OpenAI провайдеров =)

За два дня настройки я получил свой open-router для всех наших продуктовых отделов и разработчиков.

Отдельно хочу отметить возможность настраивать на каждый новый ключ TPM/RPM и бюджет в день, в месяц, в неделю (как же я этого хотел!).

Удобный UI присутствует
Контроль стал удобнее
Наши локальные vLLM сервера тоже встали в ряд и теперь все в едином интерфейсе

Видно логи каждого запроса, можно легко помочь ответить разработчику, что не так даже можно в логах при правильной настройки сохранения видеть сам request и response
Все теперь делают импорт только OpenAI
Из-за удалённости сервера +1 секунда к ответам, но это ничто по сравнению с тем, что теперь мы используем только одну библиотеку для всех наших проектов/продуктов/экспериментов!

Даже есть тестовый плейграунд для всех моделей

04/13/2025, 12:35

t.me/neuraldeep/1390

4 339 subscribers

35

1

577

Юра, мы еще не все потеряли!

Всех с днём авиации и космонавтики!

Ожидаю что на моём веку до Марса доберёмся!

04/12/2025, 09:44

t.me/neuraldeep/1389

4 339 subscribers

11

560

04/11/2025, 19:51

t.me/neuraldeep/1388

4 339 subscribers

11

557

04/11/2025, 19:51

t.me/neuraldeep/1387

4 339 subscribers

17

11

528

Продолжаем тестировать разные LLM+IDE
Евгений продолжает свое исследование AI-инструментов для разработки.
В этот раз попробовал Lovable и Bolt:
Продолжаем делать прототип интерфейса для генерации презентаций
В Lovable создал крутой прототип с визуальной точки зрения, что-то похожее на реальное приложение
Почти никакие кнопки не работают
Бэка работающего видимо тоже нет
Редактор кода явно простенький и работает только при связи с GitHub

В общем, вывод:

Может создать первый драфт фронта визуально более похожий на что-то реальное
Нет нормального редактора кода
С бэком также не работает ничего

Bolt - ровно то же самое:

Пытался итеративно делать разработку, скорее шаг за шагом, создавая мини-прототипы
В итоге поломал все приложение на этапе где надо было подключить БД
Визуально также - вроде неплохо, но ничего не работало
Столкнулся с лимитом на работу (на предыдущих не утыкался с бесплатным аккаунтом)

Видимо эти все инструменты подходят чтобы создать прототип для фронта, но с бэком надо самому разбираться!

Stay Tuned заказывайте еще разборы

04/11/2025, 19:51

t.me/neuraldeep/1384

4 339 subscribers

11

545

04/11/2025, 19:51

t.me/neuraldeep/1385

4 339 subscribers

11

554

04/11/2025, 19:51

t.me/neuraldeep/1386

4 339 subscribers

13

866

04/10/2025, 15:37

t.me/neuraldeep/1381

4 339 subscribers

13

881

04/10/2025, 15:37

t.me/neuraldeep/1383

4 339 subscribers

13

13

800

FireBase Studio от google New Call или New Top?

Рассказывает наш NLP Lead rmr_ai Евгений Орлов

Попробовал FireBase Studio от гугла и делюсь результатами тестирования.

При старте создается новый workspace, где можно выбрать или создание нового проекта на разных языках или загрузку уже существующего проекта, например из гитхаба.

Вся работа может вестись в двух режимах - с превью / классическая IDE
В превью в основном окне показывают сразу же созданный сайт, в IDE все как всегда.
Судя по тексту установки экстеншена для IDE под капотом кроется старый добрый VScode (и визуально он тоже очень походит)
Для теста попросил нагенерить проект по созданию презентаций в корпоративном стиле.

С генерацией интерфейса худо бедно gemini в итоге справилась, но заставить бэк по генерации презентаций по нажатию на кнопку работать в течении своего теста я так и не смог.

В итоге что можно сказать:
- круто, что видно сразу же как выглядит проект в превью (и можно открыть в отдельной вкладке) и потыкать, от сюда можно работать над улучшением проекта гораздо быстрее и проще
- IDE - это по сути vscode в браузере, что само по себе уже неплохо, так как это снимает необходимость настраивать локальные окружения и тд. Как это будет работать с проектами крупнее и сложнее - неизвестно (скорее всего с проблемами)
- революции в вайбкодинге не случилось. Все те же проблемы, что и в других IDE типа курсора и ко.
- есть еще режим работы в режиме drawing в интерфейсе (что то дорисовываем, дописываем, в gemini отправляется скриншот для переделки) - может быть удобно для работы над интерфейсом, чтобы визуально показывать где нужно исправить, а не ухищряться в промптах

Инструмент больше для интерфейсных прототипов чем бэка?

04/10/2025, 15:37

t.me/neuraldeep/1380

4 339 subscribers

13

881

04/10/2025, 15:37

t.me/neuraldeep/1382

4 339 subscribers

23

4

538

Многие разработчики вынуждены использовать jupyterlab \ jupyterhub во время работы, не имея возможности использовать VSCODE.
Наши товарищи из coder проделали большую работу, чтобы сделать возможным использование VSCODE через браузер.
Моя задача — подружить эти две технологии и предоставить возможность быстрого и удобного запуска обоих этих приложений.

Поэтому представляю вам библиотеку jupyter_coder_server.

Данная библиотека работает в паре с библиотекой jupyter-server-proxy, которая в свою очередь позволяет создавать дополнительные серверы внутри Jupyter.

Библиотека предоставляет возможность запускать Web Based VSCODE и Web Based Файловый менеджер.

Для установки библиотеки всего лишь необходимо выполнить команду в терминале jupyter, а после установки "перезапустить" гуи сервиса. (или перезапустить ваш jupyter)

pip install jupyter_coder_server

04/10/2025, 14:19

t.me/neuraldeep/1379

4 339 subscribers

60

2

649

Еще год назад я начал систематически вести этот канал и вот сегодня нас 4 000+!

Каждый новый человек и реакция на посте мотивирует искать для вас действительно уникальный контент про реальный опыт в AI

Из интересного - у меня это новая веха в моей карьере, так что скоро будет еще больше научного и около научного контента

Кстати у нас есть ламповый чат канала, где мы часто обсуждаем AI за рамками постов в канале

https://t.me/neuraldeepchat

04/09/2025, 19:11

t.me/neuraldeep/1378

4 339 subscribers

Repost

48

34

596

Похоронное бюро AI-инициатив

Проведя достаточно большое количество пресэйлов (100+) по Gen AI тематике, составил небольшой чек-лист запросов/проектов, которые вряд ли взлетят)

1️⃣ “Нам нужно ИИ. Просто… нужно”

Цель проекта: “Внедрить ИИ”.
Зачем? Кому? Что должно получиться? Неясно

Хороните сразу.

2️⃣ “У конкурентов есть — и нам надо”

Зависть — плохой стратег.

Копировать чужое решение без своих данных, процессов и боли — путь к провалу.

Это как надевать чужие очки и удивляться, почему всё мутно.

3️⃣ “Сделаем RAG-бота на выходных”

Идея норм. Вот только:
- Чатик есть
- Данных нет
- Понимания, как работает retriever — тоже нет

Презентация будет норм. Работы — нет.

4️⃣ “Да он сам всё придумает — это же AI”

Это не магия, это машинка с правилами.
Если ты не скажешь, что делать — она сделает ерунду. Но с умным видом.

И ты потом будешь виноват.

5️⃣ “Запускаем сразу в прод — потом разберёмся”

Не разберётесь.
Будет пожар, стыд и ор “лучше бы на Excel остались”.

6️⃣ “А давайте сгенерим всю документацию нейросеткой!”

Генерация ≠ понимание.
Потом ходишь с этим текстом, как с бомбой: вроде красиво, но никто не уверен, что там внутри. Даже сам ИИ.

7️⃣ “Главное — красиво презентовать”

Если в проекте больше времени уходит на подготовку слайдов, чем на валидацию модели — это уже не AI-проект. Это корпоративный театр.

8️⃣ “AI сократит сотрудников и сэкономит деньги”

ИИ не лечит токсичный процесс.
Он его автоматизирует. Быстрее. И больнее.
Люди уйдут, бардак останется.

9️⃣ “Сделаем MVP, а потом подумаем про данные”

Подсказка: MVP = Minimum Viable Product.
А если данных нет — то это MNP = Minimum Nothing Product.

🔟 “Мы наняли одного data scientist-а — он всё сделает”

Если AI-проект — это космический корабль, то один датасаентист — это чувак с отвёрткой и шлемом из фольги.
Без команды, процессов и поддержки — он просто сгорит в атмосфере.

Если узнал в каком-то пункте свой проект — не расстраивайся. Это ещё не похороны. Пока ты читаешь этот пост — есть шанс откачать.

📌 Как оживлять:

- Начинай с боли, а не с хайпа
- Работай с данными раньше, чем с интерфейсами
- Прототипируй быстро, но честно
- Не строй презентацию на мечтах
- Помни: AI — это усилитель, а не маг-чародей)

❓С какими приколами ты встречался при желании внедрить AI?

@alexs_journal

04/09/2025, 13:13

t.me/neuraldeep/1377

4 339 subscribers

34

58

702

Как заставить Qwen2.5-VL-72B-Instruct 8FP dynamic работать идеально с документами?
И еще извлекать bbox

Недавно Илья победитель ERC обратился ко мне с проблемой: ему нужно было обрабатывать 44-страничное письмо,
получая не только координаты текстовых блоков (bbox), но и полностью извлекать текст из каждого распознанного блока

Он уже пробовал Qwen2.5-VL-72B-Instruct через OpenRouter, но результаты были неудовлетворительными:
"Qwen 2.5 VL просто генерит полную дичь!"

Интересное наблюдение по провайдерам:
1. Parasail: $0.7 за 1M токенов (FP8) — лучший результат (после того как я показал правильную схему и промпт)
2. NovitaAI: $0.8 за 1M токенов — плохие результаты
3. Together: $8 за 1M токенов — худшие результаты

Удивительно, что самый дешевый провайдер давал значительно лучшие результаты!

Моё решение:

Я предложил протестировать модель на моей A100 с правильным промптом и JSON-схемой:

{
"type": "object",
"properties": {
"objects": {
"type": "array",
"items": {
"type": "object",
"properties": {
"bbox_2d": {
"type": "array",
"description": "Coordinates of the object bounding box [x1, y1, x2, y2]",
"items": {
"type": "integer"
}
},
"label": {
"type": "string",
"description": "Document element label"
},
"text": {
"type": "string",
"description": "Extracted text content from the detected area"
},
"confidence": {
"type": "number",
"description": "Confidence score for the detection (0.0 to 1.0)"
}
},
"required": ["bbox_2d", "label"]
}
}
},
"required": ["objects"]
}

Ключевые факторы успеха:

1. Предобработка изображений: уменьшение размера до 2000 пикселей по широкой стороне для
баланса между качеством и контекстом (8K токенов)

2. Детальный промпт:
Detect all distinct text blocks and key visual elements in the document image.
Group text lines that logically, semantically, and visually belong together into single elements cluster.
For each detected element, provide:
1. A concise and descriptive label (e.g., 'heading', 'paragraph', 'list', 'table', 'section', etc.)
2. A bounding box [x1, y1, x2, y2] that encompasses the entire grouped element.
3. The complete text content of the cluster, adjusted to the Markdown format.
Ignore "manifest immigration" header and "Manifest Law PLLC." with page number footers.

3. Структурированный вывод через guided_json vLLM:
extra_body = {
"guided_json": json.dumps(DOCUMENT_JSON_SCHEMA),
"guided_decoding_backend": "xgrammar"
}

Выводы:

1. Не все провайдеры одинаково полезны, даже с одной и той же моделью
2. Цена не всегда коррелирует с качеством
3. Правильный промпт критически важен
4. JSON-схема значительно повышает качество и стабильность результатов
5. FP8-квантизация вполне может обеспечивать высокое качество
6. Собственный хостинг даёт больше контроля и стабильности даже проверить стартовый результат

В комментариях пришлем что было до как показывали другие API провайдеры и что вышло после

В итоге Илья реализовал полный пайплайн обработки документов с точностью распознавания 100% на все документы

04/08/2025, 13:21

t.me/neuraldeep/1376

4 339 subscribers

21

28

646

Как и обещал в комментариях навайбкодил вам пример того как работает стриминг схемы(SO) на vLLM
В схеме есть CoT+SO

https://github.com/kekslop/vllm_structured_output_stream/tree/master

LLM API vLLM + Structured Output

Очень подробное README

04/07/2025, 16:53

t.me/neuraldeep/1375

4 339 subscribers

Repost

14

32

541

AI 2027: что делать, если ИИ реально всё захватывает?

Пока все шумят вокруг очередного прогноза про светлое/страшное ИИ-будущее (прогноз от умных людей AI-2027), давай спокойно разберёмся: чего ждать и как не остаться за бортом.

Без паники, без философии — просто трезвый план для тех, кто остаётся в IT и хочет адаптироваться, а не просто наблюдать.

🤖ИИ уже рядом
Cursor, Devin, Windsurf — код пишут, задачи решают, иногда даже успешно.
Пока не везде, но улучшаются быстрее, чем ты успеваешь моргнуть. Так что да, экспонента — она настоящая.

📌Первые шаги:

🔵Прими, что это реально
Не хайп. Не теория. Это уже работает. И будет работать ещё лучше. Принятие — первый шаг к спокойствию и адаптации.

🔵Начни использовать ИИ каждый день
Не просто “игрался пару раз с ChatGPT”, а именно: делегируй рутину, автоматизируй таски, учись писать промпты, проверяй код и идеи ИИ.
С правильным подходом можно делать в 2-3 раза больше за то же время.

🔵Следи за новыми инструментами
ИИ-инструменты бывают как “мем”, так и “новый уровень продуктивности”.
Учись различать. Подписки, чатики, бенчмарки — всё в помощь.

🔵Переосмысли, за что тебе платят
Если ты просто пишешь код — у ИИ скоро будет резюме покруче. Но если ты видишь архитектуру, умеешь работать с бизнесом, думаешь наперёд — ты всё ещё в игре.

🔵Окружи себя такими же адекватными
Нетворк с людьми, которые реально что-то делают с ИИ. Меньше инфоцыган и “ИИ-журналистов”, больше — практиков и экспериментаторов.

📌 Дальше — стратегически:

🔵Смещайся от “кодера” к “менеджеру ИИ” — декомпозиция, ревью, проверка, интеграция.

🔵Углубляйся в системный дизайн — машины пишут код, люди строят системы.

🔵Развивай продуктовую чуйку — понимание юзеров + ИИ = золото.

🔵Сделай себе финансовую подушку — турбулентность будет.

📌 На длинной дистанции:

🔵Управление ИИ-командами и внедрение ИИ в бизнес — будут нужны.

🔵Специализация + ИИ = суперсила. Разберись в своей нише, и ИИ будет работать на тебя.

🔵Адаптивность — ключевой скилл. Всё, что ты выучил, может устареть за год. Привыкай.

🔵Креатив, эмпатия, стратегия — вот что останется “человеческим” дольше всего.

🔵Ищи новые источники дохода. Стартапы, проекты, инвестиции — ИИ поможет, если не тормозить.

В общем: не надо паниковать. Надо учиться. Использовать. Адаптироваться.
ИИ — это не враг. Это твой новый напарник, если подружишься. Ну или соперник, если будешь игнорить.

❓Какие мысли у вас по этому поводу?

@alexs_journal

04/07/2025, 13:33

t.me/neuraldeep/1374

4 339 subscribers

21

20

723

Screen Recording 2025-04-06 at 14.42.06.mov

Structured Output = Stream?

Все знаю что если использовать API к LLM например openai библиотеку
При разработке LLM приложений можно использовать SSE стриминг выставим флаг stream=True и ловить ответ по чанкам тогда можно передавать ответ пользователю в реальном времени как печатная машинка

Но если мы используем SO (structured output) то возможность получить в реальном времени чанки для отображения пропадает

Есть решение использовать extra body и передать туда схему в метод client.chat.completions.create на vLLM можно наблюдать стриминг схемы в реальном времени
# Extra body parameters with schema
extra_body = {
"repetition_penalty": 1,
"guided_json": json.dumps(DOCUMENT_SCHEMA),
"guided_decoding_backend": "xgrammar"
}

На мой взгляд для UI опыта можно сделать что-то интересное на базе CoT+SO (доставать рассуждения сразу и показывать пользователю например)
Как пример выводить у не рассуждающей модели поле reasoning демонстрируя рассуждения по заданному шаблону

04/06/2025, 15:26

t.me/neuraldeep/1373

4 339 subscribers

16

12

783

Вышла Llama 4!

И снова огромный вклад в open-source

Читать и любоваться обсуждением Тут

Выделяю отдельно вот такие характеристики:
это самый большой официально выпущенный контекст пока что (были отдельные работы по файнтюнингу до 50 млн под конкретные задачи. Все это делается с помощью частичного отказа от позиционных эмбеддингов в некоторых слоях, Rotary embeddings в большинстве слоев и подбору коэффициентов софтмакса в attention, лучше соответствующих длине контекста.

Needle in the Haystack: 100% на 10 млн контексте (бенчмарк мы автоматически расширили синтетически до 10 млн, оригинально там 1 млн)
Блогпост тут
Поглядеть на веса тут
Попробовать тут (Web)
По попробовать тут (API openrouter)

Для меня самое интересное это 10M контекста будем смотреть что нужно по hardware

Update нужно 512 штук H100 на 10М контекста RAG не call продолжаем

** Single GPU inference using an INT4-quantized version of Llama 4 Scout on 1xH100 GPU
*** Context lengths are evaluated across 512 GPUs using 5D parallelism.

04/06/2025, 01:32

t.me/neuraldeep/1372

4 339 subscribers

Repost

9

31

614

SO CoT - самый полезный паттерн при создании продуктов с LLM под капотом

Так выходит, если судить по комментариям в моем прошлом опросе.

Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:

- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/

Ваш, @llm_under_hood 🤗

04/05/2025, 17:14

t.me/neuraldeep/1371

4 339 subscribers

30

56

981

Мы в red_mad_robot реализовали интересный кейс с применением workflow агентов на базе RAG(SO CoT)
Переходите читать на Хабр

Раскрыли некоторые технические детали

04/03/2025, 20:47

t.me/neuraldeep/1370

4 339 subscribers

Repost

1

1

Запустили Smart Platform — AI-решение для бизнеса, построенное на LLM

Большинство корпоративных данных не используется. Мы меняем это: даём бизнесу доступ к знаниям — быстро, точно и без потерь.

Платформа работает с корпоративными данными и разворачивается внутри периметра компании. В основе — RAG и многоступенчатая фильтрация. Это позволяет отсекать шум, упорядочивать информацию и получать точные ответы без искажений — в диапазоне 95–100%.

На базе технологии можно создавать AI-агентов под любые задачи — от генерации FAQ и поддержки клинетов до автоматизации доступа к корпоративным знаниям и интеграции данных в CRM.

Smart Platform уже внедрена в A101, ГК ФСК и книги билайн. Следующий шаг — SaaS-версия.

↗️Подробнее рассказали в материале Русбейс.

#AI_moment #роботайм

04/03/2025, 11:55

t.me/neuraldeep/1369

4 339 subscribers

Repost

26

17

553

⚡️ OpenAI сегодня ВЕЧЕРОМ представит GPT-5 — новая модель уже прошла внутреннее тестирование и готова к релизу.

Главные изменения:

• Мультимодальность — GPT-5 сможет обрабатывать видео, аудио и изображения в реальном времени.
• Автономные действия — ИИ сможет выполнять задачи в интернете без запросов пользователя (платежи, бронирования и т. д.).
• Ограничения — некоторые функции будут доступны только по подписке Pro Max.

Что еще известно:
• Первыми доступ получат корпоративные клиенты и разработчики.
• Бесплатная версия останется, но с урезанными возможностями.

⚡️ Подробности — сегодня в 20:00 по МСК.

04/01/2025, 09:34

t.me/neuraldeep/1368

4 339 subscribers

21

37

674

2/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений

Решил для себя закрепить пройденный материал

Давайте за термины проговорим:
API облачных LLM сервисы, предоставляющие доступ к языковым моделям через API (OpenAI, Anthropic, Google и др.) где оплата происходит за каждый обработанный токен

Open-source модели открытые модели (Qwen, Llama, Mistral и др.), которые можно скачать c huggingface и использовать на собственной инфраструктуре

On-premise размещение моделей на собственном локальном оборудовании компании

Cloud аренда вычислительных ресурсов в облаке (RunPod, AWS, GCP(google platform)) для запуска моделей (возможны разные вариации защиты данных от confidential compute до Федеративного шифрования с DP)

Confidential Computing для компаний с критическими требованиями к безопасности, где затраты вторичны по отношению к защите данных

Сценарий_simple_text_chat_system: 100к текстовых диалогов в сутки
Исходные данные
100 000 диалогов ежедневно
3 сообщения от пользователя в каждом диалоге
900 токенов на вход, 1200 токенов на выход
Средняя нагрузка: 1.16 RPS
Пиковая нагрузка: 5.63 RPS (70% трафика в течение 6 часов)

Стоимость Cloud API (GPT-4o-mini)
----------------------------------
Парам | Расчет | Сумма |
------|----------------|----------
Вход | 900×100K×$0.15 | $12.5/д |
Выход | 1.2M×100K×$0.6 | $72/д |
------|----------------|----------
Итого | | $2535/м |
----------------------------------
Итого | | $2535/м |
Аренда RunPod
--------------------------------
Парам | Расчет | Сумма |
------|--------------|----------
A100 | $1.9×6×24×30 | $8165/м |
--------------------------------
Стоимость своего оборудования
------------------
Парам | Сумма |
-------|----------
Железо | $106K |
Колок | $240/м |
Энерг | $400/м |
Аморт | $2945/м |
DevOps | $3000/м |
-------|----------
Итого | $6585/м |
------------------
Сравнение решений
|Решение | $/мес.| Преимущ.|Недос.|
|--------|-------|---------|------|
|CloudAPI| $2,5к | Low ent |APIdpn|
|RunPod | $8,1к | flexi |High $|
|Lcl | $6,5к | fullctrl|High $|
Когда переходить на собственные модели?

1. Экономические факторы
- Высокий объем запросов- локальное решение становится выгоднее GPT-4o-mini при более 140,000 диалогов/день
- Длинные контексты- при обработке больших объемов данных (>100K токенов) на запрос
- Долгосрочные проекты - окупаемость собственного оборудования относительно RunPod: ~24 месяцев

2. Неэкономические факторы
- Конфиденциальность данных - отсутствие передачи информации внешним сервисам
- Соответствие регуляторным требованиям - GDPR, 152-ФЗ, ограничения трансграничной передачи
- Стабильность работы - отсутствие очередей, ограничений скорости, кредитных лимитов, прекращение поддерживание старых версий моделей

Альтернативные сценарии_agentic_system(реальный кейс)
Пример: SAST агент патчер на базе qwen32b-coder

Экономическое обоснование:
- 50 репозиториев с ежедневными сканированиями (это минимум что апдейтит средний tir1-2 корп в сутки)
- 20 уязвимостей/день требуют исправления (анализа и быстрой реакции на них)
- 160K токенов на вход, 25K на выход 1000 запусков в день

Просто сравним сколько бы в месяц даже на старте мы тратили бы на gpt-4o-mini
И так как это MAS мы насчитали около 40+ промптов для каждого агента (представьте после PoC переезжать на qwen и все переписывать
Но для чистоты сравню стоимость
| Решение | Стоимость/месяц |
|-------------|-----------------|
| GPT-4o-mini | $990 |
| Local(A100) | $868 |

Для стартапов и проектов с небольшим объемом запросов(и низкими требованиям к безопасности после PoC) оптимальным выбором остаются облачные API из-за низкого порога входа и отсутствия капитальных затрат

Гибридный подход может быть оптимальным: использование облачных API(на старте) для обычных задач и локальных моделей для конфиденциальных данных или при высоких объемах запросов.

03/30/2025, 13:15

t.me/neuraldeep/1367

4 339 subscribers

33

52

703

1/2 Когда выгодно переходить с облачных API на собственные LLM-модели: сравнение OpenAI API, облачных и локальных open-source решений

Пришел тут ко мне интересный вопрос, допустим у нас планируется 100 000 только текстовых диалогов в сутки размером не более 3 сообщений от пользователя
Текущий стек gpt-4o-mini CoT + SO

И так, допустим, у нас есть 100 000 диалогов примерно по 100-300 токенов от пользователя и еще по 3 сообщения от ллм в сумме на инпут у нас 900 аутпут примем что чуть больше 1200

получаем вот такую картину пока исключил кеширование:
gpt-4o-mini

Входящие токены (900 × 100K): $11.48 (некеш) + $1.01 (кеш) = $12.49/день
Исходящие токены (1,200 × 100K): $72/день
Всего: ~$84.49/день или ~$2,535/месяц

Расчет RPS (запросов в секунду) возьмем очень идеальное условия:

100,000 диалогов в день = 100,000 ÷ 86,400 секунд ≈ 1.16 RPS
В пиковые часы (если 70% трафика приходится на 6 часов): ~5.63 RPS

Теперь представим, что мы хотим не повторить, но хотя бы быть на уровне результатов gpt-4o-mini
В моем честном бенчмарке это что-то около модели qwen2.5-32b-instruct
А теперь цифры, что вышли у меня
Одна А100 стоит на runpod $1.89 и такая штука будет иметь пропускную способность 2-3 запроса в секунду со стримингом

Необходимое количество серверов: 6 (для обеспечения пиковой нагрузки с запасом)

Расчет стоимости на RunPod:

Стоимость одной A100: $1.89/час
Стоимость 6 серверов A100: 6 × $1.89 = $11.34/час
Месячная стоимость (24/7): $11.34 × 24 × 30 = $8,164.80/месяц

Итого при текущих параметрах

gpt-4o-mini: ~$2,535/месяц
Локальное решение (qwen2.5-32b-instruct на 6 A100): ~$8,165/месяц

Локальное решение может становится выгодным?
Да когда мы четко выявляем для себя вот такие пункты:

1.Когда важна защита данных - нет отправки конфиденциальной информации в облако
2. Когда необходимо соответствие регуляторным требованиям - GDPR, 152-Ф3, запрет на трансграничную передачу (и то Amazon вроде GDPR соответствует если мы говорим про не РФ)
3. Стабильная работа без лимитов - нет ограничений API, кредитной системы или очередей
4. Независимость от вендора - нет риска, что АРІ поднимет цены или изменит условия

Когда еще выгодно? Update расчет для покупки железа https://t.me/neuraldeepchat/4288

Когда у нас не растет RPS но растет кол-во обрабатываемых токенов за одну сессию допустим мы начинаем сторить не 3 сообщения от пользователя а 10-20 и тогда нам начинает быть более интересно переходить на покупку/аренду железа

Забирайте как шпаргалку когда вам в голову приходит идея аренды железа под ллм

в комментариях еще кинул (написаный курсором калькулятор) есть вопросы к качеству но представление он показывает

03/29/2025, 09:28

t.me/neuraldeep/1366

4 339 subscribers

46

8

605

Выиграли на хакатоне замену нашей Алисы на кухне в офисе
Ну и разумеется проект!)

03/25/2025, 15:17

t.me/neuraldeep/1363

4 339 subscribers

10

653

03/25/2025, 15:17

t.me/neuraldeep/1364

4 339 subscribers

Repost

23

12

527

red_mad_robot и билайн заключили стратегическое партнёрство в сфере AI

Объединили усилия с билайн, чтобы вместе разрабатывать и внедрять GenAI-решения — от внутренних инструментов до продуктов для корпоративных клиентов и розницы.

Фокус — на реальных задачах. Будем создавать виртуальных ассистентов, системы управления знаниями, мультиагентные платформы и интеллектуальные сервисы. Всё — чтобы ускорить принятие решений, повысить операционную эффективность и упростить сложные процессы в бизнесе.

Отдельное направление — персонализированные AI-сервисы для клиентов билайна с подбором продуктов, управлением подписками и поддержкой в различных сферах. Команды уже в деле ✅

Фаундер red_mad_robot Алексей Макин:
Технологии и экспертиза red_mad_robot в области AI, объединённые с опытом билайна в работе с клиентами и масштабными сервисами, позволят создавать прорывные AI-решения, востребованные как в бизнесе, так и в повседневной жизни пользователей. Вместе мы сможем ускорить внедрение передовых технологий и сделать их доступнее.

#AI_moment #роботайм

03/24/2025, 16:06

t.me/neuraldeep/1362

4 339 subscribers

23

6

642

video.mp4

03/24/2025, 10:59

t.me/neuraldeep/1361

4 339 subscribers

15

39

588

Кстати схема работы моего решения) Если смотреть между строк почти ничем не отличается от других топ решений

03/23/2025, 13:49

t.me/neuraldeep/1360

4 339 subscribers

16

38

657

Результаты Enterprise RAG challenge (https://abdullin.com/erc/)
На сайте клацаем кнопку Show Local Models Only

На сегодня я завершаю свои исследования по локальным RAG подходам по документам и расскажу как мы заняли 4 место с разницей в 8 баллов от 70+b моделек (Локальных) и 1 первое место среди 32b моделей и Full Dense retrieval and cross-encoder reranker подходом (никаких кстати langchain и другого готового рагоделья только вайб кодинг в курсор и requests + vLLM)

Предыдущие посты на эту тему:
1) Анализ разных векторных моделек
2) Сравнение локальных моделей векторизации с 1 местом
3) Первые эксперименты

В итоге навайбкодил около 11к строк кода которые позволили показать такие результаты
Важное отступление что более 7 дней у меня в итоге заняло эксперименты по экстракту данных из PDF (карл)

И так для начала какое решение я принял сразу что-то ошибочно:

1) Никакой подготовки стендов заранее, все материалы команда и я в частности приступили изучать в день старта соревнований (взял из команды 2 человек ребята помогли вчитаться в условия и понять данные) (Вот тут рефлексия что нужно выделять как минимум неделю заранее свою что бы войти в курс дела)

2) Заранее пополнили все нужные нам сервисы для аренды локальных мощностей

3) Выкинул наш пайплайн RAG и я его стал строить с 0

4) Были заранее развернуты и заготовлены cross encoder bge-rerank + bge-m3 embedding model Арендована машина с А100 для (qwen 2.5 32b (16FP) instruct)

Первый этап парсинг данных из PDF
тут не обошлось без приключений так как внутри компании мы сконцентрировались на интеграциях к конфлюенс и системам для забора данных на документах мы давно не делали акцент по этому пошли гуглить и перебирать что же сможет нам достоверно достать данные из PDF

Перебрав около 3-5 библиотек финальный результат был сделан на библиотеке Marker

Далее чанкование и векторизация
Ничего нового каждая страница была разбита на чанки по 400 токенов с перекрытием в 80 токенов и дальше векторизирована батчами в сервис vLLM где развернута модель bge-m3

Далее под каждый док была созданная коллекция и настроены модели данных (что бы при запросе на KNN возвращать чанки номер страницы с которой он был взят и путь до файла где есть фулл контент страницы как потом я выяснил данный подход называется Parent Document Extraction)

Роутинг был заранее понятен из названия компаний и документов к ним в сабсет там были названя компаний их легко было смэтчить с документами(это я ксатит понял только почти в самом конце и выкинул роутинг совсем)
И так из приятного в сабсете(датасет) изначально указаны типы по этому были составлены через клод промпты под каждый тип запроса

Ну и пошли прогоны (прогонял я систему наверное раз 40 не менее)
Каждый раз вчитываясь что же она отвечает

Ищем чанки внутри дока через KNN
Ранжируем через bge-reranker (cross-encoder)
Передаем в ллм с CoT+SO для ответа

Были проблемы и с множественными вопросами но как показала моя практика курсор (в 20 итераций) смог учесть эти особенности и неплохо обработал этот формат

Как итог часть этих наработок уже ушла в наш прод продукт Smart Platform которая нацелена решать проблему создания RAG агентов для крупных компаний на локальных мощностях

Stay Tuned!
Скоро будет большой анонс нашей платформы будем с нашим CPO рассказывать что же мы там ваяли за год

P.S мы уже провели внутренние демо нашего продукта получили очень позитивный фидбек! Значит движемся куда нужно!

03/23/2025, 09:19

t.me/neuraldeep/1359

4 339 subscribers

17

8

505

В продолжение вайб кодинга на уровне квестов и курсора

Взялся протестировать один наш сервис для gptdaisy.com начинаем тонуть в запросах на генерацию изображений там связка async image generation сервис состоит из Comfy(кастомное апи написанное нами + flux + rabbit)

И так получил файлы от лида и взял наш новенький сервер с двумя 4090 и раскатил все что надо, скачал модели докер куда фигуда в общем сказка все на моих любимых скриптах

Цель была стабилизировать сервис и проверить на масштабирование как будет вести себя при n воркерах там еще и удаленные есть и сколько у нас будет IPM(image per minute) сейчас кстати почти честные 15 штук

В общем сервис не взлетел апи принимало запросы картинки не отдавлись

В общем я же вайб кодер взял подключил курсор к core + worker он проиндексировал папки ну и выдал пачки кода которые я принял

Получил я в итоге рабочий сервис все завелось, довольный я, лег спать

На утро пустил на сервер бекенд лида и получил порцию консервированных оценок кода от ллм в общем и целом результат на лицо(на скрине)

Курсор (клод 3.7) переписал все обратно на синхронные функции и зачем-то решил каждый раз открывать закрывать содениение по ws чтож тут должен быть мем но придумайте сами =)

03/21/2025, 19:21

t.me/neuraldeep/1358

4 339 subscribers

Repost

19

14

480

Пересесть с классической IDE на Cursor - как пересесть с лошади на автомобиль. Риск ДТП выше, если ты невнимателен и медленно обучаемый, но это не значит что до того как садиться на машину нужно для тренировки дальше для тренировки кататься на лошади. В конечном итоге бенефиты ускорения работы х10 переплёвывают все минусы

03/21/2025, 12:28

t.me/neuraldeep/1357

4 339 subscribers

Repost

9

2

494

🆕 Генерация изображений и новые AI-модели

Теперь в Daisy Web можно создавать изображения. Выбери «Генерация изображений» в списке моделей, опиши задумку — и получи результат. Чтобы картинка получилась качественнее, модель автоматически доработает и улучшит твой запрос.

⚠️ Функция в тестовом режиме — при высокой нагрузке возможны перебои, но команда уже работает над оптимизацией.

А ещё добавили новые AI-модели:

🔥 Claude 3.7 — лучшая нейросеть для написания кода;
🔥 Gemini 2.0 — теперь ещё эффективнее справляется с запросами.

Пробуй и делись впечатлениями в комментариях.

⚡️ Daisy Web — удобная веб-версия бота с возможностью анализа изображений и документов
🌼 @daisygpt_bot

03/20/2025, 17:22

t.me/neuraldeep/1356

4 339 subscribers

Repost

15

25

516

➡️Обучение LLM для бизнеса: практическое руководство с примерами и советами

Ловите новый вкусный видос!❤️

Там мы разбираем, как научить LLM новым навыкам, начиная с простых методов и заканчивая продвинутыми техниками. Парни делятся реальным опытом! Одна только история про автоматическое формирование отчетов с LLM только чего стоит!

В пасхалке – разбор проблем извлечения информации из сложных PDF-документов и таблиц.

В видео даются практические советы по подготовке данных, выбору методов обучения, оценке результатов и стоимости всего этого банкета.

Забивайте на все дела, отменяйте все поездки и походы по гостям, срочно смотреть!

Ютуб
Рутуб

➡️Подпишись на Korenev_AI👈

03/19/2025, 14:15

t.me/neuraldeep/1355

4 339 subscribers

32

18

648

Deep Research Showdown теперь на Хабре

Йоу, народ 👋
Переписал свои изыскания про Deep Research на Хабр. Если вам интересно, как я мучил LLM-ки, сравнивал OpenAI, Grok, Perplexity и свой NDT на Tavily, то залетайте, читайте и поднимайте мне карму! 🙏

Это моя первая статья на Хабре, буду рад вашим комментариям 🩶

03/18/2025, 22:00

t.me/neuraldeep/1354

4 339 subscribers

Repost

15

21

587

Периодически буду делиться тем, чем занимаемся на работе и какие продукты и полезные штуки делаем

Знакомьтесь — @daisytranscribe_bot ⚡

Это бесплатный ТГ-бот транскрибатор (переводит аудио в текст) и у него есть несколько приятных особенностей:

1⃣Поддержка файлов длительностью до 160 минут

2⃣Максимальный размер файла — 2 GB! (покажите мне хоть одного такого бота)

3⃣Поддержка нескольких языков

4⃣Разделение спикеров по ролям

5⃣Возможность задать кастомный промпт для работы с распознанным текстом

На текущий момент бот обработал более 55 тыс. файлов суммарной длительностью более 12 тыс. часов.

Пользуйтесь на здоровье 🩵

@alexs_journal

03/18/2025, 21:17

t.me/neuraldeep/1353

4 339 subscribers

Repost

21

54

561

AI_tools_2025_red_mad_robot.pdf

↗️Подборка AI-сервисов, чтобы сделать бизнес-процессы эффективнее

Рынок перенасыщен AI-решениями, но далеко не все из них дают бизнесу измеримую пользу. Важно понимать, какие инструменты оптимизируют процессы, снижают затраты и повышают эффективность.

Команда red_mad_robot AI собрала подборку рабочих сервисов — сохраняйте, делитесь и дополняйте список в комментариях.

P.S. Это первая часть подборки — в ней собраны только международные инструменты. В следующем выпуске разберём российские решения.

#AI_moment

03/18/2025, 15:38

t.me/neuraldeep/1352

4 339 subscribers

18

7

562

Продолжаю эксперименты по документам из RAG Challenge
Задела эта тема так как это финансовые документы и наконец есть результаты (правильные ответы)

Собрал стенд с разными векторными моделями и подходами поиска и составить для себя лучший автоматический пайплайн поиска и ответа

На скрине оценка качества retrieval, сравнение моих двух подходов на базе векторов openai (small/large) моделей + query expansion CoT)

+ Я почти правильно собрал метрики подсчёта оценки так как почти такие же метрики у Ильи (первое место)

В комментариях приложу md файл + html для вашей оценки

P.S Забыл самое важное
small openai для векторов подойдет когда вы хотите с экономить но если вам важны очень хороший ретривал и высокая разница в score то в финансовом секторе пока ничего лучше large от openai нет)

03/15/2025, 17:55

t.me/neuraldeep/1351

4 339 subscribers

Repost

16

6

330

Можно запускать новые Enterprise RAG эксперименты!

49 человек попросило запустить заново Enterprise RAG Challenge Submission API, чтобы можно было поставить еще несколько экспериментов.

Он запущен по новому адресу - https://rag.abdullin.com

Можете отправлять свои новые эксперименты туда. Только, пожалуйста, не забывайте заполнять форму с протоколом эксперимента. Так мы сможем потом подвести итоги и проанализировать.

Самый интересный сейчас момент - это полностью локальные системы, у которых локально работает все - parsing/OCR, embeddings (если они есть) и LLM. В Leaderboards у нас пока помечены как локальные системы только те архитектуры, в которых LLM локальный. Я потом постараюсь добавить колонку для Fully Local.

Если верить цифрам R-Score/G-Score, узкое место полностью локальных систем - это retrieval. Если в облаке openai large embeddings творят чудеса, то с локальными системами еще предстоит разобраться.

Тут дополнительно варианты разные варианты retrieval в Enterprise RAG Challenge уже изучали Valerii и Илья (см https://t.me/neuraldeep/1348 в NeuralDeep).

Мне кажется перспективным направлением решение Dmitry Buykin. Оно работает в облаке, но вместо embeddings использует онтологии с SO/CoT чеклистами. Теоретически тут “R Score” может упасть не так сильно при переносе на локальные модели.

Ваш, @llm_under_hood 🤗

PS: Если останется интерес, то можно попробовать через пару месяцев прогнать новый раунд ERC. С тем же генератором вопросов, но с новыми файлами.

03/14/2025, 14:32

t.me/neuraldeep/1350

4 339 subscribers

Repost

14

10

561

Кто-нибудь успел затестить GigaChat 2 MAX, которую сегодня зарелизил Сбер?

Глядя на бенчмарки, обгоняет GPT4o и Qwen 72B (вот с этими модельками у меня достаточно взаимодействия было, и я знаю, на что они способны)

Выглядит так, что на русском языке это сейчас лучшая модель (но надо потестить конечно же)

Все жду, когда будет релиз Structured Output, вот тогда можно будет создавать нормальные агентские сценарии 😎

@alexs_journal

03/13/2025, 22:36

t.me/neuraldeep/1349

4 339 subscribers

16

15

480

Провожу исследование разных подходов retrieval (лучшего поиска информации на основе датасета RAG челенджа и спасибо @IlyaRice (1 место) в предоставленных данных

Задача проверялась простая найти самый релевантный контекст(страницу) из 13 тысяч для ответа LLM на вопросы финансовых отчетов

Перед запуском использовался простой query expansion с парой few-shot примеров
few-shots генерировались на основе вычитки в документы где точно знаем ответ (подбор релевантности)

Exemple:
1) Original query: Did Downer EDI Limited announce a share buyback plan in the annual report? If there is no mention, return False.
Expansions query: Share buyback plan

2) Original query: According to the annual report, what is the Cash flow from operations (in USD) for Wheeler Real Estate Investment Trust, Inc. (within the last period or at the end of the last period)? If data is not available, return 'N/A'.
Expansions query: Cash flow from operations (in USD) last period or at the end of the last period

3) Original query: For Aurora Innovation, Inc., what was the value of Number of patents at year-end at the end of the period listed in annual report? If data is not available, return 'N/A'.
Expansions query: Total count of patents over company owned

(В E5 и bge-m3 не использовалось более одного примера в логах — переделаю)

Кейс запуска!

E-5 (без реранкера)
bge-m3 (без реранкера)
OpenAI Small (без реранкера)

Скоро запущу прогоны с кросс-энкодером!
Также создам коллекцию с крупными моделями векторизации.

Average Pairwise Match Scores (с лучшим результатом Ильи:
Ope-ily: 66.00%
Ope-E5-: 28.00%
Ope-BGE: 17.00%
ily-E5-: 31.00%
ily-BGE: 20.00%
E5--BGE: 14.00%

Matches with ilyaRice o3 (Base Model):
OpenAI Small (No Reranker): 66.00%
E5-large: 31.00%
BGE-M3: 20.00%

03/12/2025, 14:13

t.me/neuraldeep/1348

4 339 subscribers

38

25

674

С 8 марта, вас ожидает чело́век павук

03/08/2025, 11:12

t.me/neuraldeep/1347

4 339 subscribers

7

535

03/05/2025, 17:38

t.me/neuraldeep/1345

4 339 subscribers

37

7

549

Снова ваш карманный AI-эксперт летал в Москву и вместе с командой @red_mad_robot рассказывал и обучал.

Речь как всегда, шла вокруг LLM и GenAI

Как вывод: сейчас всё меняется очень быстро

Полгода назад мы рассказывали про Naive RAG, а сегодня про MAS, MCP Deep Research и LLaDa

Что ж, попрактиковался с микрофоном, были очень интересные вопросы!

03/05/2025, 17:38

t.me/neuraldeep/1344

4 339 subscribers

Repost

8

6

394

IMG_7325.MP4

Кажется это не CGI

03/04/2025, 20:47

t.me/neuraldeep/1343

4 339 subscribers

19

26

1.1 k

VLM заменит CV?

Ты знал что qwen 2.5 VL вернет тебе bbox?

А теперь магия без рук!

Я взял этот квен Qwen2.5-VL-72B-Instruct-FP8-Dynamic

Взял на иммерс эту тачку https://immers.cloud/flavor/view/?id=984 (Цена, месяц = 269 660,16 ₽)

Наконец дождался пока vLLM обновится и станет поддерживать 2.5 VL

Взял вот такой код

OBJECT_JSON_SCHEMA = {
"type": "object",
"properties": {
"objects": {
"type": "array",
"items": {
"type": "object",
"properties": {
"bbox_2d": {
"type": "array",
"description": "Coordinates of the table bounding box [x1, y1, x2, y2]",
"items": {
"type": "integer"
}
},
"label": {
"type": "string",
"description": "Object label, e.g. 'table'"
}
},
"required": ["bbox_2d", "label"]
}
}
},
"required": ["objects"]
}

Получил вот такой ответ

{
"id": "chatcmpl-9a5edf7433e246b78376c4f18bdbf263",
"object": "chat.completion",
"created": 1741078401,
"model": "qwen2.5-vl-72b-instruct",
"choices": [
{
"index": 0,
"message": {
"role": "assistant",
"reasoning_content": null,
"content": "{\"objects\": [{\"bbox_2d\": [54, 126, 532, 434], \"label\": \"table\"}]}",
"tool_calls": []
},
"logprobs": null,
"finish_reason": "stop",
"stop_reason": null
}
],
"usage": {
"prompt_tokens": 724,
"total_tokens": 760,
"completion_tokens": 36,
"prompt_tokens_details": null
},
"prompt_logprobs": null
}

Но это только начало просто вернуть bbox таблицы это легко

По мимо этого мы можем получить содержимое, но ведь есть кейсы сложнее

А что если прислать сообщения из тг например?
Определить sender'ов и сразу в один проход достать текст?

"objects": [
{
"bbox_2d": [
58,
292,
540,
360
],
"label": "Кстати вы знали что Qwen 2.5 VL может выдавать bbox объектов? https://qwenlm.github.io/blog/qwen2.5-vl/",
"sender": "user1",
"type": "text"
},
{
"bbox_2d": [
60,
374,
276,
404
],
"label": "о спасибо попробую",
"sender": "user2",
"type": "text"
},
{
"bbox_2d": [
60,
413,
490,
466
],
"label": "00:19, 72.9 KB",
"sender": "user2",
"type": "voice"
}

Да на х4 4090 это около 35 секунд, но!
Сам текст она достала нем немного ужасно, но с этим уже можно работать!

Я вас направил! Дальше я думаю вы знаете как использовать это в бизнесе и стартапах!

03/04/2025, 12:38

t.me/neuraldeep/1339

4 339 subscribers

17

559

03/04/2025, 12:38

t.me/neuraldeep/1342

4 339 subscribers

17

556

03/04/2025, 12:38

t.me/neuraldeep/1341

4 339 subscribers

17

557

03/04/2025, 12:38

t.me/neuraldeep/1340

4 339 subscribers

14

422

X2Twitter.com_t19DU7017m4P2vps_720p.mp4

03/01/2025, 15:57

t.me/neuraldeep/1338

4 339 subscribers

16

14

405

X2Twitter.com_LoVgYzoqLgF4_tec_720p.mp4

LLaDA - это диффузионная языковая модель (LLM) что?

Появился новый тип LLM на основе диффузионных моделей

Отличие от авторегрессии(текущие LLM) в том, что в таких моделях каждый токен предсказывается последовательно, а в диффузионном подходе предсказывается целая матрица токенов в заданном фрейме

Это похоже на то, как идёт генерация изображений 100×100 пикселей из шума в понятную картинку

В этом подходе модель генерирует не последовательность, а целый текстовый фрейм. Нужны сравнения по весу, стоимости обучения и инференса - подход выглядит новаторским. На мой взгляд, это несколько усложняет процесс инференса и сборки датасета, но нужно тестировать! Посмотрим, что там по open-source.

Основные отличия вот в чем
Авторегрессивные модели (большинство существующих LLM):
Генерируют текст последовательно, токен за токеном слева направо
Каждый новый токен зависит от предыдущих токенов
Более прямолинейный процесс генерации

Диффузионные модели (LLaDA, Mercury):
Генерируют все токены одновременно, постепенно "очищая" шум
Работают по принципу "от грубого к точному" (coarse-to-fine)
Могут позволить более гибкое управление текстом (например, задание определенных слов в конкретных позициях)

До сих пор диффузионные модели доминировали в генерации изображений и видео, в то время как текст опирался на авторегрессию
Mercury от Inception Labs представлена как первая коммерческая диффузионная LLM

Судя по посту Karpathy, такой подход может привести к появлению моделей с уникальными сильными и слабыми сторонами

Потенциальные преимущества диффузионных LLM могут включать параллельную генерацию (возможно, более быстрый инференс) и более гибкое управление содержимым ждем open-source и гоу тестить!

03/01/2025, 15:57

t.me/neuraldeep/1337

4 339 subscribers

2

450

02/28/2025, 15:12

t.me/neuraldeep/1336

4 339 subscribers

16

2

447

Засабмитил с роутер агентом
Заодно ввел классификации запросов по тематикам
Я все, вырубаю сервер =)

Enterprise RAG Challenge

02/28/2025, 15:12

t.me/neuraldeep/1335

4 339 subscribers

6

473

02/28/2025, 13:59

t.me/neuraldeep/1333

4 339 subscribers

6

469

02/28/2025, 13:59

t.me/neuraldeep/1332

4 339 subscribers

6

472

02/28/2025, 13:59

t.me/neuraldeep/1334

4 339 subscribers

16

6

435

Все херня выбрасывай

Просмотрев ответы и поняв что я чукча релевантность найденного источника желает оставлять лучшего я решил переделать на давно работающий у нас подход роутер агент под каждую компанию созданна коллекция

И что это такое а то что я каждый док гружу как коллекцию

self.router_schema = {
"type": "object",
"properties": {
"collections": {
"type": "array",
"items": {"type": "string"},
"description": "List of collection names that match the query"
},
"companies": {
"type": "array",
"items": {"type": "string"},
"description": "List of company names from the query or ['unknown'] if impossible to determine"
},
"reasoning": {
"type": "string",
"description": "Brief explanation of why these collections and companies were chosen"
}
},
"required": ["collections", "companies", "reasoning"]
}

Крч пошел новый прогон где я прям уверен в нормальном мапинге)))

Кстати все снова опять на qwen 7b

И уже на 40 вопросах я вижу 100% попадание

Да я учел что есть вопросы где нужно вернуть несколько коллекций!

02/28/2025, 13:59

t.me/neuraldeep/1331

4 339 subscribers

30

13

463

Enterprise RAG Challenge
Как всегда меня немного затянуло =)

Прямо сейчас участвую в Enterprise RAG Challenge от @llm_under_the_hood, и хочу рассказать, что pdf2md challenge почти в кармане.

В итоге я тестировал около 6 стратегий поиска информации
Разметка смог протестировать только одну стратегию, но и самую затратную она и заняла больше всего времени.
Я топлю за on-premise так что никаких облачных моделей все на своем железе благо мы в NDT закупились у теперь у нас есть 10 штук 4090 !

Итак, мы взяли все 100 PDF финансовых отчетов, это примерно ~14454 страниц
Из них было 3026
Общее кол-во категорий 13 (направлений)

1) Команда помогла найти топ библиотеку и конвертировала все PDF в markdown в текст.
2) Даже топ подход теряет около 2-5 % данных просто потому, что не видит кодировки или выводит ромбики. Сюда входят даже платные сервисы и самая топовая обработка

Все модели поднимаются в FP16 на vLMM
Векторная модель intfloat/multilingual-e5-large развернутая на 4 2080ti пропускная способность бешеная в 32 батч сайз

3) Я поднял наш весь свободный кластер и классифицировал все 14к страниц через 6 серверов с vLLM 4090 с развернутыми qwen 2 VL 7b instruct (это заняло примерно 2 часа времени)
На выход были вот такие:
"has_tables": true,
"table_count": 56,
"content_types": {
"image": 11,
"mixed_image_text": 11,
"chart": 3,
"text": 20,
"mixed_chart_text": 1,
"mixed_table_text": 33,
"table": 21
}
4) Далее мы перевели все таблицы в markdown, img 2 markdown процесс занял у нас примерно 4 часа

5) Далее мы векторизировали часть данных (чанки + названия компаний, они были предоставлены в subset)

И загрузили в Milvus с вот такой схемой:
{
"fields": [
{"name": "id", "type": "Int64"},
{"name": "text", "type": "VarChar(65535)"},
{"name": "page_number", "type": "VarChar(10)"},
{"name": "file_path", "type": "VarChar(2048)"},
{"name": "company_name", "type": "VarChar(256)"},
{"name": "embedding", "type": "FloatVector(1024)", "index": {"name": "embedding", "type": "COSINE", "nlist": 1024}},
{"name": "company_embedding", "type": "FloatVector(1024)", "index": {"name": "company_embedding", "type": "COSINE", "nlist": 1024}},
{"name": "sparse", "type": "SparseFloatVector", "index": {"name": "sparse", "type": "BM25"}}
]
}

Сейчас, кстати 6 утра, и хорошо отрабатывает вот так поиск с подходом ANN search:
{
"query": "",
"top_k": 5,
"search_type": "vector",
"text_weight": 0.7,
"company_weight": 0.3
}
Самое важное, что при просмотре найденного контекста я беру топ 3 чанка и загружаю полные страницы из файловой системы:
{
"results": [
{
"relevance": 0.8573796153068542,
"collection": "Financial_Services",
"text": "```markdown\n# Pintec Technology Holdings Limited\n## Consolidated Statements of Operations and Comprehensive Loss\n(RMB and US$ in thousands, except for share and per share data, or otherwise noted)\n\n### For the years ended December 31",
"company_name": "Pintec Technology Holdings Limited",
"file_path": "mk_embedded\\9e794a58e511f6a6a9a13b201d652deff9f9f69a.pdf.json",
"page_number": "204",
"id": "456258446756725963"
},
Что хоро вижу четкую связь между названием компании, текстом и найденной страницей (достаточно близко), нет сильной разреженности
Ну и далее 4 схемы для SO в реквестах есть тип данных которые хотят видеть это упрощает жизнь, куда же без него:
NUMBER_SCHEMA = {
"type": "object",
"properties": {
"value": {"type": "string"},
"confidence": {"type": "number"},
"reasoning": {"type": "string"}
},
"required": ["value", "confidence", "reasoning"]
}

BOOLEAN_SCHEMA = {
"type": "object",
"properties": {
"value": {"type": "boolean"},
"confidence": {"type": "number"},
"reasoning": {"type": "string"}
},
"required": ["value", "confidence", "reasoning"]
}
И так далее для других типов под каждый типо свой промпт
На текущий момент прогнались все вопросы пошел глядеть и сабмитить!

02/28/2025, 06:30

t.me/neuraldeep/1329

4 339 subscribers

12

504

02/28/2025, 06:30

t.me/neuraldeep/1330

4 339 subscribers

Repost

21

34

420

GenAI trends_feb2025_red_mad_robot.pdf

↗️ А вот и он! Тренд-репорт про рынок GenAI в 2025 году, который мы презентовали в МШУ Сколково.

AI перестал быть просто трендом — это полноценный технологический цикл, меняющий бизнес-процессы, экономику и рынок труда. Стратегические аналитики red_mad_robot собрали ключевые тренды и события, которые помогут лучше понять, куда движется индустрия.

Что внутри:
📍 овервью рынка GenAI на февраль 2025: рост, инвестиции, ведущие игроки;
📍 топ-10 технологических трендов, которые определяют вектор развития рынка;
📍 как GenAI трансформирует рынок труда;
📍 эксперименты в GenAI: на что стоит обратить внимание;
📍 оценка бизнес-эффектов от внедрения GenAI.

Сохраняйте, изучайте, делитесь фидбеком.

02/25/2025, 18:10

t.me/neuraldeep/1328

4 339 subscribers

9

455

02/23/2025, 10:47

t.me/neuraldeep/1327

4 339 subscribers

18

9

374

DeepResearch Showdown: Битва AI-систем за качество исследований!

Решил по подсказке Богдана замутить честный(свой) бенчмарк систем для глубокого исследования
Потратил я уже 4 часа на сборку и анализ и вот что получилось!

Дисклеймер вопросы которые я задавал системам интересны мне т.е субъективные

Что нового?
Я собрал универсальный промпт для оценки и автоматизировал сборку ответов в полуручном варианте
Сделал сборку и верификацию реузльтатов
По каждому результату прошелся глазами и проверил что же там ответила система

Всего 5 вопросов, но каждый - с прицелом на конкретные метрики
Автоматизировал оценку через Claude 3.5 Sonnet
Добавил свой скептический взгляд в оценку
Сравнивал: OpenAI, Grok, Perplexity, NDT (мой проект на Tavily + 7B)

Метрики оценки (1-10 баллов):

Глубина (Depth) = источники + полнота не менее 10 шт
Структура (Structure) = логика + разделы + связность
Актуальность (Relevance) = даты + тренды + прогнозы (учитываю наличие этих блоков в ответе)
Методология (Methodology) = процесс + выборка + воспроизводимость (каждый вопрос кроме openai был задан 2-3 раза)
Ценность (Value) = применимость + рекомендации (насколько это информация была ценна для меня нашел ли я такое же в интернете и сильно ли это сократило время на рисерч)

Боевые задачи для тестирования:

Bitcoin: текущий курс + прогнозы (фокус: Актуальность + Методология)
SAST анализаторы 2025 с LLM (фокус: Глубина + Структура)
ITER: сроки и бюджет (фокус: Методология + Глубина)
AI-стартапы с агентами на LLM в 2025 (фокус: Структура + Ценность)
Адаптивные AI-интерфейсы и "жидкий" UX (фокус: Глубина + Актуальность)

Сами вопросы
1) Легкий уровень: Актуальный курс биткоина и прогнозы

2) Уточнение задачи: Самые лучшие SAST анализаторы 2025 года с применением LLM

3)Поиск конкретных цифр и дат: Когда будет запущен ITER сколько было потрачено денег на его создание

4) Исследование и сравнение: Перспективные идеи AI стартапов с применением агентов на базе LLM и Structured Output 2025 год сравни их по инновационности

5) Исследования и сравнения чуть сложнее 4 запроса: Найди исследование того что интерфейсы с AI функциями должны адаптироваться под запросы пользователей найди примеры гибридных подходов или "жидких" интерфейсов сделай акцент на Web app приложениях

🔥 Интересные находки:

OpenAI единственный задает уточняющие вопросы (+2 балла за это)
Мой Deep Research (cкоро выложу новую версию) на Tavily показал себя достойно с учетом 7B модели
Время обработки:
• OpenAI: до 6 минут на запрос
• NDT: 3-4 минуты
• Grok: ~1 минута (free)
• Perplexity: <1 минуты (free)

💰 Стоимость эксперимента:

OpenAI: $200 за подписку (спасибо Артему за поддержку!)
NDT: нужна 4090 + Tavily API + DevOps + Backend + NLP + Analytic (Я)
Grok & Perplexity: бесплатные версии (есть ограничения по кол-ву запросов в сутки)

Для интересующихся, все результаты OpenAI доступны по ссылкам
[1] [2] [3] [4] [5]
(особенно советую глянуть 3 и 5 исследования):

Как итог сейчас у нас места

1) Grok
2) OpenAI
3) Perplexity
4) NDT DeepReserach (на минуточку в одного разработчика за неделю)

В целом разница не сильно большая по метрикам но и если вы ищете лучшее то вывод думаю можно сделать легко

Stay tuned! Буду пилить новые эксперименты! 🚀
P.S. Кто хочет присоединиться к следующему раунду тестирования - welcome в комменты!

02/23/2025, 10:47

t.me/neuraldeep/1325

4 339 subscribers

9

429

02/23/2025, 10:47

t.me/neuraldeep/1326

4 339 subscribers

11

5

415

Deep Research ты мне верь, я все нужное нашёл!

Ходил бродил как варенье по интернету и не нашёл для себя адекватного готового бенчмарка для таких агентских систем, т.е например на сайте openai задачи на рисерч которые я в жизни бы даже не придумал мне что-то простое нужно запросы более приземленого характера, ну что поделать будем изобретать 😁

А теперь к метрикам я провел анализ по 5 реквестам к своему Deep Research и Perplexity и Grok3

На текущий момент это усредненная оценка двух судей
Оценивал я + claude 3.5 sonnet(LLM as judge)

За метрики я взял такие параметры как

Глубина анализа: Сколько было найденно ссылок и источников и насколько они актуальный (высший бал у преплексити у них точно лучший поисковой движок)

Структурированность: четкая организация с помощью CoT(мой подход) у преплексити возможно тоже SO + CoT структура там есть

Актуальность: тут мы оцениваем даты и понимание запроса в связи со временем

Итеративность: есть ли последовательность в действиях и как она описывается (планировщик и оценка процесса что важно понимать куда забрел агент при поиске информации)

Практическая ценность: можно ли данные результаты приложить к аналитике для применения в проктите (корпоративные решения или локальные ценности) предвзятая метрика я сам судил можно ли что-то делать с данными

Разница в почти 8 процентов?

Пойду соберу выборку запросов по больше но даже на 5 такой подход показывается небольшую разницу

Выводов пока не будет просто скажу что удалось повторить но не превзойти

UPD подкинул еще Grok3 в сравнение

02/22/2025, 07:57

t.me/neuraldeep/1324

4 339 subscribers

24

15

438

Deep Web Research Продолжаю эксперименты на небольших моделях(локальных) сейчас в тесте t-tech/T-lite-it-1.0
Собрал сложный граф на кучи зависимостях (оно живое и работает!)
Это просто что-то Ринат бы из @llm_under_hood оценил (оч много кастомных CoT и задач рассуждений) я не думал что 7b модель может выдавать такие результаты

Просто покажу вам кусочек информации которую выдает такой подход при простом рисерче информации!

# Research Topic: Лучшие SAST анализаторы 2025 года

## Research Evolution
Исследование началось с выявления ключевых инструментов SAST и их интеграции в DevSecOps и менеджмент безопасности, а также с анализа технологических достижений в анализаторах металлов и сплавов. В ходе последующих итераций были выявлены инновации в интеграции машинного обучения в анализаторы кода и его влияние на безопасность разработки. В заключительной итерации были синтезированы все ключевые выводы и инсайты, подкрепленные соответствующими источниками.

## Comprehensive Findings
В 2025 году инструменты статического анализа кода (SAST) продолжат играть ключевую роль в обеспечении безопасности и качества программного обеспечения, особенно для групп DevSecOps и менеджеров по безопасности. Новые исследования подчеркивают важность интеграции машинного обучения в SAST инструменты для повышения их эффективности и точности. В частности, инструмент Xygeni Лидер выделяется своей способностью обеспечивать высокую точность обнаружения уязвимостей и низкий уровень ложных срабатываний, что делает его предпочтительным выбором для современных команд DevSecOps [1].

Интеграция машинного обучения в SAST инструменты, такие как Xygeni, будет способствовать ускорению и повышению безопасности разработки приложений, что подчеркивает важность использования передовых технологий в области безопасности разработки [3]. Это позволит командам DevSecOps применять проактивный и целостный подход к безопасности, гарантируя устойчивость приложений как к уязвимостям на уровне кода, так и к рискам третьих лиц.

Кроме того, инструменты анализа данных с использованием искусственного интеллекта (AI), такие как Sisense, станут еще более важными для компаний, стремящихся извлекать значимую информацию из растущих объемов данных. AI-инструменты позволят улучшить понимание данных, обеспечивая возможность прогнозного анализа и анализа трендов [1].

### Основные выводы и инсайты:

1. **Интеграция машинного обучения в SAST инструменты**: Улучшение точности и скорости обнаружения уязвимостей в приложениях [1, 3]. Это позволит снизить количество ложных срабатываний и повысить эффективность процесса анализа кода.

2. **Роль Xygeni Лидера**: Высокая точность и низкий уровень ложных срабатываний делают его идеальным выбором для DevSecOps [1]. Xygeni Лидер поддерживает бесшовную интеграцию CI/CD и обеспечивает высокоскоростное сканирование, что делает его подходящим для современных команд DevSecOps.

02/21/2025, 16:54

t.me/neuraldeep/1323

4 339 subscribers

Repost

27

14

377

Хотите ворваться в разработку AI-решений? Мы в red_mad_robot запускаем буткемп для джунов, где за 4 недели вы получите практический опыт в разработке AI-решений под руководством экспертов red_mad_robot.

↗️У вас будет два возможных пути

- NLP-инженер — работа с LLM (ChatGPT, LLaMA, Claude), настройка промтов, обработка текстов. Для разработчиков, аналитиков и тех, кто хочет научиться говорить с AI на одном языке;
MarkUp-инженер — разметка данных, генерация контента, автоматизация процессов. Идеально для тестировщиков, технических специалистов и тех, кто хочет делать AI точнее.

⚡️Как устроен буткемп?
- 80% практики — реальные задачи, никаких лекций ради лекций;
- менторы red_mad_robot — поддержка и ревью;
- кейс в портфолио + новые AI-скиллы.

Приём заявок — до 10 марта. Старт — 17 марта. Обучение бесплатное, но с отбором.

🔗 Интересно? Записывайтесь по ссылке .

02/21/2025, 13:40

t.me/neuraldeep/1322

4 339 subscribers

Repost

8

7

302

📚 Теперь файлы — твоя личная база знаний

Работаешь с документами и хочешь находить нужную информацию без лишних поисков? Я научилась умнее обрабатывать файлы, а значит, теперь ты можешь загружать их в чат и быстро получать ответы на основе их содержимого.

Как это работает?

1️⃣ Очищаю текст — удаляю лишнее и оставляю только важную информацию.
2️⃣ Разбиваю на части (чанки) — текст делится на небольшие блоки по 512 токенов, чтобы сохранять смысл и работать с ним точнее.
3️⃣ Создаю векторное представление — каждый фрагмент превращается в набор чисел, который легко находить при поиске.
4️⃣ Когда ты задаёшь вопрос, я ищу самые подходящие кусочки текста, отбирая топ-35 релевантных фрагментов.
5️⃣ Формирую ответ — объединяю найденную информацию и выдаю готовый результат.

Зачем это нужно?

👉 Быстрый поиск по объёмным документам.
👉 Возможность загружать несколько файлов и работать с ними, как с собственной базой знаний.
👉 Экономия времени — теперь тебе не нужно вручную искать информацию в тексте.

Просто загрузи файл и попробуй Daisy в деле. Если уже тестировал — пиши в комментах, как это упростило работу 👇

⚡️ Daisy Web — удобная веб-версия бота с возможностью анализа изображений и документов
🌼 @daisygpt_bot

02/19/2025, 13:54

t.me/neuraldeep/1321

4 339 subscribers

40

39

431

0218.mp4

Deep Research за копейки?

Йоу, народ! Время рассказать, чем я тут занимался в последнее время

Спойлер: Deep Кодил

Короче, решил я окунуться в мир опенсорса на тему Deep Research
Знаете, такие штуки, которые умнее обычного гугления
И вот что я там накопал прошелся по 3-4 репо и пока вот мой топ для понимания как это работает.

Значит берем LangGraph(langsmith)
Берем tavily
Берем LLM
Берем другую LLM которая будет кодить (кстати я попробовал Cursor скоро расскажу как оно там)

1. Можно кастомить агентов с помощью Structure Output + CoT (Chain of Thought, если кто не в курсе).
2. Есть готовые репо, типа этого: https://github.com/langchain-ai/ollama-deep-researcher

Но я же не ищу легких путей! Взял этот репо и перепилил всё под себя что поменял
- Промпты обновил (добавил SO, чтоб было красиво)
- Граф немного перекроил
- Подключил свои серваки с vLLM (видюхи не простаивают!)
- Поправил промпты рефлексии

Короче, получилось вот это чудо:

https://github.com/kekslop/ndt-deep-researcher

И вот что самое крутое: с сегодняшнего дня почти все мои наработки будут попадать на GitHub!
Да-да, вы тоже сможете их попробовать!

Я там расписал README так подробно, что даже моя бабушка сможет повторить мой опыт создания такого агента и использования его в быту
Ну, почти 😅

Основная фишка текущего подхода - это визуализация и работа с Structured Output и работа с моделькой 7b =)
Дальше буду кастомить свой CoT

Что умеет эта штука для меня
- Работает на разных языках (прям как я после пятничного стрима "запускаем новое направление))
- Ищет инфу в интернете через Tavily (круче, чем ваша школьная разработка на силениум )

А самое интересное впереди! Скоро расскажу, как сделать монструозную систему с генерацией биг отчета и поиском инфы в нескольких источниках

Следите за обновлениями, кто хочет быть в теме!
Ну а я пошел кодить дальше, пока команда думает, что я занимаюсь "стратегическим планированием" 😎

02/18/2025, 11:54

t.me/neuraldeep/1320

4 339 subscribers

Repost

27

4

376

IMG_9303.MP4

🔎 Поиск без лишних вкладок

Теперь в любой модели можно включить поиск в интернете, а результаты будут автоматически добавляться в контекст диалога. Даже если отключишь, информация останется доступной для работы.

Как это работает?

1. включаешь поиск — я нахожу актуальные данные;
2. источники отображаются с кликабельными ссылками;
3. полученная информация остаётся в чате, как загруженный файл.

Никаких лишних вкладок и копипаста — всё нужное уже здесь. Попробуй умный поиск и расскажи, насколько он полезен для тебя 👇

⚡️ Daisy Web — удобная веб-версия бота с возможностью анализа изображений и документов
🌼 @daisygpt_bot

02/17/2025, 12:23

t.me/neuraldeep/1319

4 339 subscribers

Repost

8

1

271

🆕 Обновления в Daisy Web и мобильной версии

Рада сообщить о долгожданных улучшениях:

1. Ты сам выбираешь, как выглядит интерфейс: светлая, тёмная или автоматическая тема, которая меняется в зависимости от настроек твоего устройства.

2. Загруженные картинки теперь отображаются прямо в чате, а не как прикреплённые файлы. Удобно и наглядно — всё, что нужно для комфортной работы.

Скорее тестируй и делись впечатлениями 🔥

⚡️ Daisy Web — удобная веб-версия бота с возможностью анализа изображений и документов
🌼 @daisygpt_bot

02/14/2025, 12:40

t.me/neuraldeep/1318

4 339 subscribers

16

402

Вечная дилема выбора даже AI не помог

С праздником всех причастных ❤️❤️❤️

02/14/2025, 10:04

t.me/neuraldeep/1317

4 339 subscribers

33

4

467

@daisytranscribe_bot

Приятный фидбек по среди недели!

А ты все еще используешь платные сервисы для STT!
Учитесь как делать удобно себе

02/13/2025, 15:35

t.me/neuraldeep/1316

4 339 subscribers

Repost

9

11

298

AI-рынок на пороге перемен: что ждёт индустрию в 2025 году?

Прошлый год стал для AI точкой масштабных изменений: open source модели укрепили позиции, компании начали адаптировать стратегии под новые реалии, а регуляторы — пытаться успеть за технологиями. Но это только начало: рынок продолжает трансформироваться, и в 2025-м нас ждут новые прорывы и вызовы.

Чтобы понять, куда движется индустрия, собрали мнения экспертов из NDT by red_mad_robot, Битрикс24, MTS AI, е/асс, Вкусвилла и GigaChat. Листайте карточки, чтобы узнать:

• Как компании пересматривают подходы к внедрению и использованию нейросетей?

• Какие технологии и бизнес-модели будут определять развитие AI в 2025 году?

• И каким будет следующий этап в гонке генеративного интеллекта?

#AI_moment

02/11/2025, 12:11

t.me/neuraldeep/1309

4 339 subscribers

Repost

11

311

02/11/2025, 12:11

t.me/neuraldeep/1310

4 339 subscribers

Repost

11

313

02/11/2025, 12:11

t.me/neuraldeep/1312

4 339 subscribers

Repost

11

311

02/11/2025, 12:11

t.me/neuraldeep/1311

Search results are limited to 100 messages.

Some features are available to premium users only.

You need to buy subscription to use them.

Filter

Reset filters

Publication date

Search in file name

Message type

Repost

Original

Deleted message

Message is not deleted