O seu período de teste terminou!
Para acesso total à funcionalidade, pague uma subscrição premium
ML
Anton Alekseev | Инфраструктура для AI и ML
https://t.me/mlops_infra
Idade do canal
Criado
Linguagem
Russo
-
ER (semana)
-
ERRAR (semana)

Привет, я Антон @antonaleks Пишу здесь про инфраструктуру для AI/ML

Mensagens Estatísticas
Repostagens e citações
Redes de publicação
Satélites
Contatos
História
Principais categorias
As principais categorias de mensagens aparecerão aqui.
Principais menções
Não foram detectadas menções significativas.
Encontrado 14 resultados
KAI Scheduler - нативный планировщик K8S от Nvidia

Что то зачастились посты на этой неделе, а ведь есть чем поделиться!
Добрались руки потрогать и пощупать KAI Scheduler. Nvidia выложила в open source скедулер, который используется в их enterprise Run.AI платформе.
Вкратце - он неплохо решает проблему скедулинга ворклоудов на GPU ресурсы при задачах обучения. Как он это делает?

Пройдемся по сущностям:

⌛️Queues- сущность, где мы можем определить квоты на ресурсы. Очень удобно, если мы хотим ограничить конкретным ворклоудам запуск на ограниченном количестве ресурсов. Есть у вас команда - делаем к ним лейбл с указанием имени очереди. Если привысят квоты на аллоцирования GPU, Pod не запустится.

�Elastic Workload - ворклоуд с встроенным HPA. В целом большего описания и не требуется.

🚀Workload Priority - четыре класса приоритетов. Показывают, какие ворклоуды можно прерывать для аллоцирования более важных процессов.

🤝GPU shari
ng - можно указывать фракции GPU, например 0.5. Да, k8s не позволит вам запустить в этом случае больше 2 подов на 1 GPU, но это по сути time slicing, так что контроля за памятью на уровне k8s не будет. Запустил 2 VLLM с фракциями по 0.5, соответсвенно каждый забрал полностью GPU и произошел OOM. Придется ограничивать память на уровне апликейшена.

Больше всего мне зашли механизмы квотирования в очередях. Остальое больше применимо к трейнингу, не для инференса. Также есть проект Volcano от китайцев, но в целом это примерно тоже самое.
18.04.2025, 17:20
t.me/mlops_infra/72
Как готовить Triton: рецепты вашей инференс платформы

Привет! Вышла моя новая статья - в этот раз я выпустил небольшой гайд лайн по репозиторию, где собрал полезные туториалы по Triton Inference Server.

В самом репозитории вы можете найти
- Демо инференс платформы, которую мы поставляем как частную инсталляцию в Selectel
- Деплой различных форматов моделей в Triton
- Деплой популярных LLM и дифузеров (некий fondational models)
- Автоподбор формата моделей и конфига Triton
- Простенькие примеры UI для ваших инференсов

Часть примеров взяты из официальной репы Triton (но иногда в их доке можно ногу сломать). Поэтому я постарался вынести все в одно место.
17.04.2025, 16:32
t.me/mlops_infra/71
Как приручить LLM: подбор инфраструктуры для инференса без головной боли

Да, именно так называется мой доклад на ML митап в Selectel, который я расскажу вам уже в следующую среду 23 апреля!

А вот небольшой спойлер в какой франшизе будет проходить рассказ) Догадались?)

Что думаете про Tensor RT LLM? - Пишите в комментах. Что думаю я - вы поймете по картинке)
16.04.2025, 12:01
t.me/mlops_infra/70
Альтернативный шеринг GPU

Всем привет! Прошло уже полтора года с моей первой статьи про шеринг GPU, где я рассказывал про MIG, MPS, Timeslicing и как их готовить. Сейчас MIG является у многих стандартом деления видеокарт, так как доступен из коробки и имеет отличную изоляцию на уровне железа!

Но мы не стоим на метсе, выпускают все больше и больше интересных инструментов для шеринга GPU. Предлагаю ознакомиться в этом посте с альтернативными способами деления видеокарт)

📌Взломанный k8s-vGPU-scheduler или Hami-Project
7-8 апреля был на DevOps Conf, послушал интересный доклад про использования vGPU. Да, по факту эта штука лицензионная - нужно платить Nvidia за использование. Но покапавшись в исходниках nvidia библиотек ребята из cloud.ru сумели реализовать этот подход у себя без покупки лицензий. И в итоге оказалось, что китайцы были немного впереди и выложили их идею в open source под названием project-HAMi. Проект под эгидой CNCF между прочим! Спасибо ребятам, что поделились этой находкой в своем докладе!

На первом скриншоте показано, как происходит изоляция ресурсов при объявлении их в манифесте. Делении видеокарты либо через vGPU (как на 2 скриншоте), либо через dynamic-mig. Еще и красивый дашбордик сделали.

📌Dynamic Resource Allocation
DRA в целом меняет подход аллоцирования GPU ресурсов для подов.

Теперь мы заранее объявляем ресурсы GPU, описываем их и используем как атач в наших манифестах - тем самым мы можем одну и ту же GPU использовать для нескольких подов (смотри 3 скриншот). Сама реализация доступна здесь. С версии k8s 1.32 должен быть динамический MIG, но я еще не проверял.

📌KAI-Scheduler от Nvidia

Нативный планировщик Kubernetes от Nvi
dia с открытым исходным кодом для больших AI workloads. Мы также можем задать объем vRAM для конкретного пода или даже 0.5 GPU (смотри скриншот 4).

Но судя по этому issue - под капотом обычный timeslicing. И если у вас на одной видеокарте 3 пода используют 0.5 GPU - видимо произойдет OOM 🔥

Вот такой небольшой обзор получился, возможно он когда-нибудь перерастет в новую статью! Всем хорошего дня!
10.04.2025, 10:29
t.me/mlops_infra/69
Анонс выступления на DevOps митапе Островка!

Привет!
В этот четверг 27 марта в 18 30 буду в Москве выступать с докладом про Автоскейлинг Инференса в K8S на DevOps митапе Островка!
В этот раз тематика митапа варьруется от серьезных сеньерских докладов до стендапов про девопс, так что интересно будет большой аудитории.

В своем рассказе я покажу, как происходит автоскейлинг triton у нас в инференс платформе. Я уже рассказывал об этом на highload, но в этот раз решил расширить тему на отдельное выступление - добавил scale to zero, scale from zero, как мы боримся с узкими горлышками автоскейлинга через кеширование образов и ускорение пуллинга.

Доклад будет интересен не только млщикам, но и девопс специалистам, так как автоскейлинг инференса в целом не сильно отличается от автоскейлинга веб сервисов.

Приходите очно или присоединяйтесь онлайн! Митап бесплатный, регистрация доступна по этой ссылке
24.03.2025, 12:57
t.me/mlops_infra/64
NVIDIA Dynamo AI

NVIDIA выпустили новое опенс сорс решение для инференса LLM - dynamo AI

В качестве бекендов поддерживает популярные фреймворки mistralrs, sglang, vllm, и tensorrtllm.

Упор сделали на LLM с большим количеством миллиардов параметров, преимущественно которые запускаются на нескольких GPU.

И действительно к triton есть вопросики на этот счет.

Сам я пока не тестировал, как дойдут руки, попробую скинуть бенчмарки. Пока что на скриншоте приведены бенчи от разработчиков.

Подробнее можно прочитать в этой статье
20.03.2025, 21:06
t.me/mlops_infra/63
Краткий гайд по деплою вашего инференса на GPU

Привет! Недавно на консультации рассказывал гайдлайн, как правильно задеплоить инференс на виртуалке с GPU. Решил поделиться с вами!

🚀 В начале было Слово Железо.

Архитектура GPU Nvidia в сфере датацентровых видеокарт развивается следующим образом:

Volta → Ampere → Hopper → Blackwell

Важные особенности архитектуры (новое поколение включает плюсы предыдущего):

Volta
- доступны MPS на 48 потоков.

Ampere
- MIG — возможность разделения GPU на уровне железа максимум на 7 частей.
- Flash Attention — существенно повышает производительность.
- bfloat16 - прозводительный формат для генеративных моделей

Интересная статья про GP
U

🚀 Драйверы и CUDA

По-умолчанию если нет опеределенных требований ставьте latest версию драйвера в зависимости от ядра вашей ОС.

Также рекомендую изучить мою матрицу зависимостей драйверов, CUDA и фреймворков.


🚀 Docker-образы

Для работы связки Docker → GPU необходим Container Toolkit.

Версия CUDA зашивается внутрь Docker-образа; на хосте ставим только драйвер и Toolkit.

🚀 Фреймворки инференса

Ol
lama — подходит для GGUF-моделей, отлично для домашнего использования. Запускается одной командой.

vLLM — стандартный выбор для сервинга LLM.

Triton +
vLLM — Triton как обертка над vLLM, позволяет использовать метрики DCGM экспортера.

Triton + Tens
orRT — оптимальный выбор, если не хватает производительности (RPS).


На этом пока что все. Ставьте реакции 🔥, если нужно расписать каждый пункт отдельным постом подробнее! У каждого шага свои особенности и грабли, на которые я уже наступал и мне хотелось бы, чтобы вы их обошли стороной)
17.03.2025, 11:52
t.me/mlops_infra/62
Нужны ли публичные выступления разработчику?

Всем привет! Вышел выпуск подкаста "Сегодня на ретро" с моим участием на тему публичных выступлений!

Поговорили с Серафимой Чекулаевой и Сережей Епихиным про личный бренд, как он помогает рабочим задачам, стоит ли компаниям вкладываться в разработчиков-спикеров)
Так что самое время заварить себе горячительных напитков и послушать новый выпуск!

У моих коллег также есть классные каналы, смотрите и подписывайтесь:
Канал Серафимы - @Serafima_Chekulaeva
Канал Сережи - @borodafm
26.02.2025, 19:42
t.me/mlops_infra/61
Кто такой MLOps инженер?😩

Недавно помогал на менторской консультации сформировать понимание - что из себя представляет MLOps инженер?

Из ~180 вакансий на HH вы сможете увидеть в основном такие заголовки:
- MLOps
- DevOps
- ML Engineer
- Data Scientist
- Senior ML Python Developer
- Technical Product Manager)))

и у всех будет написано что-то такое (MLOps в бэкграунде, MLOps практики). Как видим - рынок сам не понимает что это такое. Некий солдат универсал, который умеет все.

И у меня спросил менти - куда в итоге развиваться и что делает то MLOps инженер?)

Как я ответил на этот вопрос.🗣
Я нарисовал небольшую диаграмму📈. Из моего опыта как млопса обычно приходиться работать с тремя сущностями:

1️⃣ Data - платформы данных, ваши любимые Spark, Airflow и ETL. Feature stores и Data Lakes

2️⃣ ML - эксперименты и автоматизация обучения моделей. MLFlow, Clearml, распределенное обучение и даже GPU!

3️⃣ Inference - модельки в продакшене, http/grpc эндпоинты, хайлоуд нагрузки и оптимизация инференса

И здесь кажется, что в одном инженере очень сложно уложить все три сущности. Поэтому я поделил их на Вертикали - специалисты, которые в основном варятся в инфраструктуре для каждого кружочка и процессами, связанными с ними.

А что, если мы проведем горизонтальную линию на все три кружка? Мы получим пайплайн доставки ценности до конечного клиента - от подготовки данных до эндпоинта. И конечно задача таких инженеров - автоматизировать эту поставку.

Так что мой ответ - смотря в какой специализации ты хочешь развиваться) Можно попробовать все сущности, можно углубиться в одну, здесь зависит от задач, которые ты выполняешь. Надеюсь скоро более менее рынок поймет, кто такой MLOps инженер, и возможно даже появится стандарт собеседований.

А пока что на первых этапах учите DevOps/Backend/DataScience, так как под них стандарты собесов уже есть!

Пишите в комментариях, что вы думаете про специализации MLOps инженера? LLMOps, InferenceOps, GPU-allocation-engineer - кто накинет больше вариантов?)
19.02.2025, 13:34
t.me/mlops_infra/60
Ребрендинг и планы на год

Всем привет! Я наконец восстановился после праздников и готов поделиться с вами новостями, относительно этого канала 🔥

1. Я нашел свою сферу интересов в инфраструктуре для ML 💪.
Этот канал я создал чуть меньше года назад. Изначально думал писать про DevOps простым языком, далее контент ушел в сторону MLOps и моих статей/выступлений и я сделал ребрендинг, попытвашись иронично обыгрыть мейнстрим по созданию своих каналов. Но основная причина смена названий и концепций канала для меня это поиск своей ниши и сферы интересов. Все мы растем и меняемся с течением времени, так что не считаю это чем то плохим иногда "переобуваться" и менять свое направление

Порефлексировав над текущим моим контентом и сферой моих интересов могу сказать, что в ближайшее время я хочу больше углубляться в мир инфраструктуры для ML. Основные мои исследования как раз направлены на эту тематику, уже есть экспертность в вопросах по построению ML платформ, инференсов и работой с GPU в облаке. И дальше мне хочется конечно расширять экспертность в этой сфере и делиться с вами. Поэтому я решил снова переименовать канал, а также добавить в него больше своей личности)

2. Планы на год по исследованиям
На этот год я планирую
- Изучить Dynamic Allocation Resource в k8s (хочу дождаться 1.33 версии) и показать вам новые способы управления ресурсами GPU в k8s.
- Углубиться в оптимизацию автоскейлинга, рассмотреть подробнее lazy loading и снепшотеры, zstd формат, p2p хранилища.
- Дальше прокачивать экспертизу в Triton Inference Server, изучать методы оптимизации инференсов. Как сделать доступнее GPU при меньшей потере качества модели.
- Продолжу писать статьи и выступать на конференциях.

3. Вы всегда можете обратиться ко мне за помощью
Уже несколько месяцев мне поступают вопросы и обращения по работе с инфраструктурой для ML. С небольшими вопросами я с радостью вам помогу (например с настройкой GPU оператора, или с вопросами про инференс LLM).

Но если у вас комплексная проблема, вы также можете обратиться ко мне за консультацией, например через эту площадку по вопросам:

- Построение инфраструктуры для ML задач
- Подбор конфигурации инфраструктуры под LLM
- Помощь в разработке Inference сервисов
- Трек развития специалиста по ML инфраструктуре

Я очень рад, что нашел на данный момент направление, которое мне очень нравится, а также интересно и вам) Оставайтесь на связи и ждите контент, до скорого!😊
12.02.2025, 11:03
t.me/mlops_infra/58
Os resultados da pesquisa são limitados a 100 mensagens.
Esses recursos estão disponíveis apenas para usuários premium.
Você precisa recarregar o saldo da sua conta para usá-los.
Filtro
Tipo de mensagem
Cronologia de mensagens semelhante:
Data, mais novo primeiro
Mensagens semelhantes não encontradas
Mensagens
Encontre avatares semelhantes
Canais 0
Alta
Título
Assinantes
Nenhum resultado corresponde aos seus critérios de pesquisa