Your trial period has ended!
For full access to functionality, please pay for a premium subscription
ML
Anton Alekseev | Инфраструктура для AI и ML
https://t.me/mlops_infra
Channel age
Created
Language
Russian
-
ER (week)
-
ERR (week)

Привет, я Антон @antonaleks Пишу здесь про инфраструктуру для AI/ML

Messages Statistics
Reposts and citations
Publication networks
Satellites
Contacts
History
Top categories
Main categories of messages will appear here.
Top mentions
The most frequent mentions of people, organizations and places appear here.
Found 16 results
Перечень полезных источников "Как приручить LLM"

Друзья, делюсь с вами полезными источниками, на основе которых рассказывал про подбор инфраструктуры для LLM

- Карточка модели Qwen со страницы HuggingFace
- Статья про оценку VRam при подборе GPU
- Онлайн калькулятор подсчета VRam
- Инференс фреймворки Ollama, SGLang, VLLM
- Конфигурация VLLM
- Инструменты нагрузочного тестирования locust, k6, gatling, apache jmeter, яндекс танк
- Инструмент нагрузочного тестирования для инференеса от Nvidia - perf analyzer, gen ai perf
- Режимы gen ai perf - Analyze, Sessions
- Квантиазции GGUF, AWQ, GPTQ
- Бекенды Triton для LLM - VLLM, TensoRT LLM
- Утилита для импорта конфигурации Triton для LLM
- Бенчмарки TensorRT LLM
- Статья сравнения инференсов для LLM от bentoML cloud

Как вам доклад? Оставляйте свои реакции и комменты!
04/23/2025, 18:32
t.me/mlops_infra/74
🚀 Вышел новый выпуск подкаста Data Breakfast!
Вместе с Антон Алексеев и Ефим Головин разбираем inference Framework — зачем нужны специализированные инструменты для инференса ML-моделей и почему просто «FitPredict» не всегда достаточно.

🔍 В выпуске:
• GPU vs CPU: оптимизация под железо.
• Triton, BentoML, RayServe — сравнение open-source решений.
• Когда выбрать SaaS, а когда писать свой фреймворк?
• Баланс между latency, масштабированием и стоимостью.

🎧 Слушайте там, где удобно:
• Яндекс.Муз
ыка
• Telegram-пл
еер
• Читайте текст на са
йте

💡 #DataScience #ML #Inference #Podcast #DataBreakfast #Тритон #Инфраструктура

Погружайтесь в мир ML-инференса с нами! 🤖✨
04/23/2025, 11:03
t.me/mlops_infra/73
KAI Scheduler - нативный планировщик K8S от Nvidia

Что то зачастились посты на этой неделе, а ведь есть чем поделиться!
Добрались руки потрогать и пощупать KAI Scheduler. Nvidia выложила в open source скедулер, который используется в их enterprise Run.AI платформе.
Вкратце - он неплохо решает проблему скедулинга ворклоудов на GPU ресурсы при задачах обучения. Как он это делает?

Пройдемся по сущностям:

⌛️Queues- сущность, где мы можем определить квоты на ресурсы. Очень удобно, если мы хотим ограничить конкретным ворклоудам запуск на ограниченном количестве ресурсов. Есть у вас команда - делаем к ним лейбл с указанием имени очереди. Если привысят квоты на аллоцирования GPU, Pod не запустится.

�Elastic Workload - ворклоуд с встроенным HPA. В целом большего описания и не требуется.

🚀Workload Priority - четыре класса приоритетов. Показывают, какие ворклоуды можно прерывать для аллоцирования более важных процессов.

🤝GPU shari
ng - можно указывать фракции GPU, например 0.5. Да, k8s не позволит вам запустить в этом случае больше 2 подов на 1 GPU, но это по сути time slicing, так что контроля за памятью на уровне k8s не будет. Запустил 2 VLLM с фракциями по 0.5, соответсвенно каждый забрал полностью GPU и произошел OOM. Придется ограничивать память на уровне апликейшена.

Больше всего мне зашли механизмы квотирования в очередях. Остальое больше применимо к трейнингу, не для инференса. Также есть проект Volcano от китайцев, но в целом это примерно тоже самое.
04/18/2025, 17:20
t.me/mlops_infra/72
Как готовить Triton: рецепты вашей инференс платформы

Привет! Вышла моя новая статья - в этот раз я выпустил небольшой гайд лайн по репозиторию, где собрал полезные туториалы по Triton Inference Server.

В самом репозитории вы можете найти
- Демо инференс платформы, которую мы поставляем как частную инсталляцию в Selectel
- Деплой различных форматов моделей в Triton
- Деплой популярных LLM и дифузеров (некий fondational models)
- Автоподбор формата моделей и конфига Triton
- Простенькие примеры UI для ваших инференсов

Часть примеров взяты из официальной репы Triton (но иногда в их доке можно ногу сломать). Поэтому я постарался вынести все в одно место.
04/17/2025, 16:32
t.me/mlops_infra/71
Как приручить LLM: подбор инфраструктуры для инференса без головной боли

Да, именно так называется мой доклад на ML митап в Selectel, который я расскажу вам уже в следующую среду 23 апреля!

А вот небольшой спойлер в какой франшизе будет проходить рассказ) Догадались?)

Что думаете про Tensor RT LLM? - Пишите в комментах. Что думаю я - вы поймете по картинке)
04/16/2025, 12:01
t.me/mlops_infra/70
Альтернативный шеринг GPU

Всем привет! Прошло уже полтора года с моей первой статьи про шеринг GPU, где я рассказывал про MIG, MPS, Timeslicing и как их готовить. Сейчас MIG является у многих стандартом деления видеокарт, так как доступен из коробки и имеет отличную изоляцию на уровне железа!

Но мы не стоим на метсе, выпускают все больше и больше интересных инструментов для шеринга GPU. Предлагаю ознакомиться в этом посте с альтернативными способами деления видеокарт)

📌Взломанный k8s-vGPU-scheduler или Hami-Project
7-8 апреля был на DevOps Conf, послушал интересный доклад про использования vGPU. Да, по факту эта штука лицензионная - нужно платить Nvidia за использование. Но покапавшись в исходниках nvidia библиотек ребята из cloud.ru сумели реализовать этот подход у себя без покупки лицензий. И в итоге оказалось, что китайцы были немного впереди и выложили их идею в open source под названием project-HAMi. Проект под эгидой CNCF между прочим! Спасибо ребятам, что поделились этой находкой в своем докладе!

На первом скриншоте показано, как происходит изоляция ресурсов при объявлении их в манифесте. Делении видеокарты либо через vGPU (как на 2 скриншоте), либо через dynamic-mig. Еще и красивый дашбордик сделали.

📌Dynamic Resource Allocation
DRA в целом меняет подход аллоцирования GPU ресурсов для подов.

Теперь мы заранее объявляем ресурсы GPU, описываем их и используем как атач в наших манифестах - тем самым мы можем одну и ту же GPU использовать для нескольких подов (смотри 3 скриншот). Сама реализация доступна здесь. С версии k8s 1.32 должен быть динамический MIG, но я еще не проверял.

📌KAI-Scheduler от Nvidia

Нативный планировщик Kubernetes от Nvi
dia с открытым исходным кодом для больших AI workloads. Мы также можем задать объем vRAM для конкретного пода или даже 0.5 GPU (смотри скриншот 4).

Но судя по этому issue - под капотом обычный timeslicing. И если у вас на одной видеокарте 3 пода используют 0.5 GPU - видимо произойдет OOM 🔥

Вот такой небольшой обзор получился, возможно он когда-нибудь перерастет в новую статью! Всем хорошего дня!
04/10/2025, 10:29
t.me/mlops_infra/69
Анонс выступления на DevOps митапе Островка!

Привет!
В этот четверг 27 марта в 18 30 буду в Москве выступать с докладом про Автоскейлинг Инференса в K8S на DevOps митапе Островка!
В этот раз тематика митапа варьруется от серьезных сеньерских докладов до стендапов про девопс, так что интересно будет большой аудитории.

В своем рассказе я покажу, как происходит автоскейлинг triton у нас в инференс платформе. Я уже рассказывал об этом на highload, но в этот раз решил расширить тему на отдельное выступление - добавил scale to zero, scale from zero, как мы боримся с узкими горлышками автоскейлинга через кеширование образов и ускорение пуллинга.

Доклад будет интересен не только млщикам, но и девопс специалистам, так как автоскейлинг инференса в целом не сильно отличается от автоскейлинга веб сервисов.

Приходите очно или присоединяйтесь онлайн! Митап бесплатный, регистрация доступна по этой ссылке
03/24/2025, 12:57
t.me/mlops_infra/64
NVIDIA Dynamo AI

NVIDIA выпустили новое опенс сорс решение для инференса LLM - dynamo AI

В качестве бекендов поддерживает популярные фреймворки mistralrs, sglang, vllm, и tensorrtllm.

Упор сделали на LLM с большим количеством миллиардов параметров, преимущественно которые запускаются на нескольких GPU.

И действительно к triton есть вопросики на этот счет.

Сам я пока не тестировал, как дойдут руки, попробую скинуть бенчмарки. Пока что на скриншоте приведены бенчи от разработчиков.

Подробнее можно прочитать в этой статье
03/20/2025, 21:06
t.me/mlops_infra/63
Краткий гайд по деплою вашего инференса на GPU

Привет! Недавно на консультации рассказывал гайдлайн, как правильно задеплоить инференс на виртуалке с GPU. Решил поделиться с вами!

🚀 В начале было Слово Железо.

Архитектура GPU Nvidia в сфере датацентровых видеокарт развивается следующим образом:

Volta → Ampere → Hopper → Blackwell

Важные особенности архитектуры (новое поколение включает плюсы предыдущего):

Volta
- доступны MPS на 48 потоков.

Ampere
- MIG — возможность разделения GPU на уровне железа максимум на 7 частей.
- Flash Attention — существенно повышает производительность.
- bfloat16 - прозводительный формат для генеративных моделей

Интересная статья про GP
U

🚀 Драйверы и CUDA

По-умолчанию если нет опеределенных требований ставьте latest версию драйвера в зависимости от ядра вашей ОС.

Также рекомендую изучить мою матрицу зависимостей драйверов, CUDA и фреймворков.


🚀 Docker-образы

Для работы связки Docker → GPU необходим Container Toolkit.

Версия CUDA зашивается внутрь Docker-образа; на хосте ставим только драйвер и Toolkit.

🚀 Фреймворки инференса

Ol
lama — подходит для GGUF-моделей, отлично для домашнего использования. Запускается одной командой.

vLLM — стандартный выбор для сервинга LLM.

Triton +
vLLM — Triton как обертка над vLLM, позволяет использовать метрики DCGM экспортера.

Triton + Tens
orRT — оптимальный выбор, если не хватает производительности (RPS).


На этом пока что все. Ставьте реакции 🔥, если нужно расписать каждый пункт отдельным постом подробнее! У каждого шага свои особенности и грабли, на которые я уже наступал и мне хотелось бы, чтобы вы их обошли стороной)
03/17/2025, 11:52
t.me/mlops_infra/62
Нужны ли публичные выступления разработчику?

Всем привет! Вышел выпуск подкаста "Сегодня на ретро" с моим участием на тему публичных выступлений!

Поговорили с Серафимой Чекулаевой и Сережей Епихиным про личный бренд, как он помогает рабочим задачам, стоит ли компаниям вкладываться в разработчиков-спикеров)
Так что самое время заварить себе горячительных напитков и послушать новый выпуск!

У моих коллег также есть классные каналы, смотрите и подписывайтесь:
Канал Серафимы - @Serafima_Chekulaeva
Канал Сережи - @borodafm
02/26/2025, 19:42
t.me/mlops_infra/61
Кто такой MLOps инженер?😩

Недавно помогал на менторской консультации сформировать понимание - что из себя представляет MLOps инженер?

Из ~180 вакансий на HH вы сможете увидеть в основном такие заголовки:
- MLOps
- DevOps
- ML Engineer
- Data Scientist
- Senior ML Python Developer
- Technical Product Manager)))

и у всех будет написано что-то такое (MLOps в бэкграунде, MLOps практики). Как видим - рынок сам не понимает что это такое. Некий солдат универсал, который умеет все.

И у меня спросил менти - куда в итоге развиваться и что делает то MLOps инженер?)

Как я ответил на этот вопрос.🗣
Я нарисовал небольшую диаграмму📈. Из моего опыта как млопса обычно приходиться работать с тремя сущностями:

1️⃣ Data - платформы данных, ваши любимые Spark, Airflow и ETL. Feature stores и Data Lakes

2️⃣ ML - эксперименты и автоматизация обучения моделей. MLFlow, Clearml, распределенное обучение и даже GPU!

3️⃣ Inference - модельки в продакшене, http/grpc эндпоинты, хайлоуд нагрузки и оптимизация инференса

И здесь кажется, что в одном инженере очень сложно уложить все три сущности. Поэтому я поделил их на Вертикали - специалисты, которые в основном варятся в инфраструктуре для каждого кружочка и процессами, связанными с ними.

А что, если мы проведем горизонтальную линию на все три кружка? Мы получим пайплайн доставки ценности до конечного клиента - от подготовки данных до эндпоинта. И конечно задача таких инженеров - автоматизировать эту поставку.

Так что мой ответ - смотря в какой специализации ты хочешь развиваться) Можно попробовать все сущности, можно углубиться в одну, здесь зависит от задач, которые ты выполняешь. Надеюсь скоро более менее рынок поймет, кто такой MLOps инженер, и возможно даже появится стандарт собеседований.

А пока что на первых этапах учите DevOps/Backend/DataScience, так как под них стандарты собесов уже есть!

Пишите в комментариях, что вы думаете про специализации MLOps инженера? LLMOps, InferenceOps, GPU-allocation-engineer - кто накинет больше вариантов?)
02/19/2025, 13:34
t.me/mlops_infra/60
Ребрендинг и планы на год

Всем привет! Я наконец восстановился после праздников и готов поделиться с вами новостями, относительно этого канала 🔥

1. Я нашел свою сферу интересов в инфраструктуре для ML 💪.
Этот канал я создал чуть меньше года назад. Изначально думал писать про DevOps простым языком, далее контент ушел в сторону MLOps и моих статей/выступлений и я сделал ребрендинг, попытвашись иронично обыгрыть мейнстрим по созданию своих каналов. Но основная причина смена названий и концепций канала для меня это поиск своей ниши и сферы интересов. Все мы растем и меняемся с течением времени, так что не считаю это чем то плохим иногда "переобуваться" и менять свое направление

Порефлексировав над текущим моим контентом и сферой моих интересов могу сказать, что в ближайшее время я хочу больше углубляться в мир инфраструктуры для ML. Основные мои исследования как раз направлены на эту тематику, уже есть экспертность в вопросах по построению ML платформ, инференсов и работой с GPU в облаке. И дальше мне хочется конечно расширять экспертность в этой сфере и делиться с вами. Поэтому я решил снова переименовать канал, а также добавить в него больше своей личности)

2. Планы на год по исследованиям
На этот год я планирую
- Изучить Dynamic Allocation Resource в k8s (хочу дождаться 1.33 версии) и показать вам новые способы управления ресурсами GPU в k8s.
- Углубиться в оптимизацию автоскейлинга, рассмотреть подробнее lazy loading и снепшотеры, zstd формат, p2p хранилища.
- Дальше прокачивать экспертизу в Triton Inference Server, изучать методы оптимизации инференсов. Как сделать доступнее GPU при меньшей потере качества модели.
- Продолжу писать статьи и выступать на конференциях.

3. Вы всегда можете обратиться ко мне за помощью
Уже несколько месяцев мне поступают вопросы и обращения по работе с инфраструктурой для ML. С небольшими вопросами я с радостью вам помогу (например с настройкой GPU оператора, или с вопросами про инференс LLM).

Но если у вас комплексная проблема, вы также можете обратиться ко мне за консультацией, например через эту площадку по вопросам:

- Построение инфраструктуры для ML задач
- Подбор конфигурации инфраструктуры под LLM
- Помощь в разработке Inference сервисов
- Трек развития специалиста по ML инфраструктуре

Я очень рад, что нашел на данный момент направление, которое мне очень нравится, а также интересно и вам) Оставайтесь на связи и ждите контент, до скорого!😊
02/12/2025, 11:03
t.me/mlops_infra/58
Search results are limited to 100 messages.
Some features are available to premium users only.
You need to buy subscription to use them.
Filter
Message type
Similar message chronology:
Newest first
Similar messages not found
Messages
Find similar avatars
Channels 0
High
Title
Subscribers
No results match your search criteria