GigaDev — разработка GigaChat – @gigadev

Your trial period has ended!

For full access to functionality, please pay for a premium subscription

GigaDev — разработка GigaChat

https://t.me/gigadev_channel

Channel age

Created

Language

Russian

ER (week)

ERR (week)

Истории и статьи про разработку GigaChat от команды разработчиков. Мы рассказываем про все, что связано с языком, речью и искусственным интеллектом

Messages Statistics

Top categories

Main categories of messages will appear here.

Top mentions

The most frequent mentions of people, organizations and places appear here.

Found 7 results

GigaDev — разработка GigaChat

1 803 subscribers

1.9 k

🚀 GigaChat 2 стал мультимодальным и уже доступен в боте и на сайте

Обновление серьёзное: модель научилась понимать не только текст, но и голос, изображения, ссылки и документы.

Что прокачали:

🔊 Аудио
Теперь GigaChat нативно понимает голос: на вход в модель поступает не просто распознанная речь, а вся аудиозапись целиком. Это позволяет взаимодействовать с моделью не только на русском, но и на английском, точнее понимать запросы с узко-специализированными терминами.

📎 Ссылки и документы
Файлы больше не грузятся в контекст целиком. Вместо этого — метаинформация и function call по требованию. Можно кидать сразу несколько ссылок, а в контексте может содержаться несколько документов, и модель будет работать с ними осмысленно.

📽 Видео по ссылке
С VK, RuTube — вытаскивается аудио, подаётся в модель целиком. GigaChat понимает, о чём речь, и умеет выдать краткое содержание или ответить на вопрос.

🖼 Зрение
Поддержка OCR, локализация объектов, понимание структуры изображений, обработка сканов документов, математических выражений, графиков.

⚙️ Function calling
Под капотом — гибкая система вызова внешних функций: работа с файлами, парсинг ссылок, интернет-поиск. Всё вызывается по необходимости в зависимости от запроса.

🧠 Контекст вырос, галлюцинаций меньше, лучше следование инструкциям и понимание длинных запросов.

💬 Попробуйте новые возможности прямо сейчас — в боте или на giga.chat

04/14/2025, 15:30

t.me/gigadev_channel/22

GigaDev — разработка GigaChat

1 803 subscribers

3.3 k

🔥 FP8 mixed precision — где и как DeepSeek снизили точность вычислений?

В прошлом посте мы разобрали, как использование FP8 для матричных операций (GEMM) ускоряет обучение моделей. Теперь давайте посмотрим, какие методы и оптимизации FP8 применялись при разработке DeepSeek-V3 — одной из лучших моделей на данный момент.

⚡️ Особенности FP8 GEMM от DeepSeek

Просто перевести все вычисления в FP8 недостаточно. В обучении встречаются выбросы (outliers) в активациях, весах и градиентах — редкие, но экстремальные значения, которые сильно искажают точность при квантовании. Если их не учитывать, модель может потерять качество.

Вот какие техники использовались в DeepSeek-V3 для FP8-обучения:

🔹 Точечное (fine-grained) квантование
Вместо квантования тензоров целиком они разбиваются на небольшие группы:
▪️ Активации — на «плитки» (tile-wise) 1×128
▪️ Веса — на блоки (block-wise) 128×128
Активации более подвержены выбросам, поэтому требуют более аккуратного квантования. Этот метод снижает влияние выбросов, так как масштабирование подгоняется под меньшие группы элементов.

🔹 FP32-аккумуляция
FP8 ограничен по точности из-за небольшого количества бит для мантиссы. Чтобы минимизировать ошибки округления, промежуточные результаты GEMM копируются в FP32-регистры CUDA Cores и только потом суммируются.
Использование FP32 для аккумуляции выходов тензорных ядер позволяет значительно снизить ошибки, которые возникают при суммировании большого числа результатов умножения маленьких матриц в FP8.

🔥 Другие важные оптимизации

🔹 Использование E4M3 вместо гибридных форматов
Ранее в FP8-обучении использовали гибридные форматы:
▪️ E4M3 для Fprop (прямой проход)
▪️ E5M2 для Dgrad / Wgrad (обратный проход)

В DeepSeek-V3 все операции перевели на E4M3, так как он имеет большую мантиссу → выше точность. Ограниченный динамический диапазон компенсируется tile/block-wise масштабированием.

🔹 Экономия памяти и ускорение коммуникации
▪️ Low-precision оптимизатор — моменты AdamW хранятся в BF16, а мастер-веса и градиенты — в FP32.
▪️ FP8-кеширование активаций — активации сохраняются в FP8 после Fprop, что значительно экономит память.
▪️ Сжатие коммуникации — в распределённом обучении передача данных между узлами — узкое место. В DeepSeek-V3 для части коммуникаций активации перед отправкой сжимаются в FP8, что по заявлениям авторов уменьшает накладные расходы на передачу данных. Однако часть коммуникаций все же сохраняется в BF16 в критических местах.

И главное: качество модели практически не страдает. Ошибка по сравнению с BF16-обучением остаётся в пределах 0.25%, что укладывается в статистическую погрешность.

Авторы не только подробно описали свою методику, но и выложили в open-source реализацию FP8 GEMM с fine-grained scaling — DeepGEMM.

Более маленькие типы данных вроде FP8 и bf16 — это не только про ускорение матричных вычислений, но и про эффективное управление памятью и оптимизацию коммуникаций. И как показали DeepSeek, правильная интеграция этих техник позволяет обучать очень большие модели без потери качества!🚀

03/31/2025, 11:10

t.me/gigadev_channel/21

GigaDev — разработка GigaChat

1 803 subscribers

5.8 k

Untitled 4.mp4

03/18/2025, 12:38

t.me/gigadev_channel/20

GigaDev — разработка GigaChat

1 803 subscribers

2.7 k

🔥 Как FP8-вычисления ускоряют обучение больших моделей?

Когда-то переход на FP16 в машинном обучении был настоящим вызовом — приходилось бороться с переполнением чисел, потерей точности и нестабильностью тренировки. Со временем появился BF16, который совместил в себе диапазон FP32 и компактность FP16, сильно упростив работу и удешевив обучение моделей.

Но прогресс не стоит на месте: хочется использовать ещё более компактный тип FP8, который может ускорить вычисления теоретически аж в 4 раза по сравнению с FP32.

Звучит круто, но на практике есть сложности: FP8 бывает разным. Самые распространённые форматы:

🔸 E4M3 — шире диапазон чисел, ниже точность (подходит для активаций)
🔸 E5M2 — точнее числа, но уже диапазон (лучше для весов)

Из-за того, что в FP8 всего 8 бит на число, быстро возникают проблемы переполнения или, наоборот, слишком сильного округления. Поэтому использовать FP8 напрямую для всех операций пока невозможно. Нужно хитро подбирать форматы и аккуратно контролировать масштаб данных.

В GigaChat мы начали внедрять FP8 постепенно, сфокусировавшись сначала на наиболее подходящей для него операции — перемножении матриц (GEMM). Но даже здесь возникли свои сложности: активации и веса всё ещё хранятся в BF16, а значит, каждую операцию нужно предварять конвертацией типов:

активации (BF16) → FP8
веса (BF16) → FP8
перемножение матриц в FP8
результат (FP8) → обратно в BF16

Без специальных оптимизаций эти постоянные преобразования приводят к огромным накладным расходам. И именно здесь критически важен torch.compile: он автоматически объединяет цепочки таких операций, избавляясь от ненужных промежуточных шагов и резко снижая задержки и копирования.

Несмотря на сложности, мы уже смогли ускорить тренировку на впечатляющие 27%, полностью сохранив точность модели 🚀

Что можно делать дальше:

🔸 Сократить количество BF16-активаций там, где это возможно без потери качества
🔸 Переводить межузловые коммуникации на FP8

⚡️Будем держать вас в курсе следующих оптимизаций! Stay tuned

P.S. Большое спасибо GigaChat Max 2.0 за анимацию!

03/18/2025, 12:38

t.me/gigadev_channel/19

GigaDev — разработка GigaChat

1 803 subscribers

108

127

2.6 k

🎉 GigaChat 2.0 — полностью обновлённая линейка моделей!

Салют! Мы рады представить Вам новые GigaChat 2 Lite, Pro и Max модели. За полгода мы проделали колоссальную работу и делимся результатами в хабр статье.

✨ Ключевые обновления:
- Контекст до 128 тысяч токенов — в 4 раза больше!
- Значительно улучшенные обучающие данные
- Усовершенствованный Alignment и RLHF
- Улучшенные функциональные вызовы
- Повышенное качество понимания инструкций

🏆 Впечатляющие результаты:
- GigaChat 2 MAX занял 1-е место в бенчмарке MERA, обойдя GPT-4o!
- В ru_llm_arena: 82,5 балла (было 72,5)
- В arena_hard_ru: 83,5 балла (было 67,0)
- GigaChat 2 Lite ≈ прежний GigaChat Pro
- GigaChat 2 Pro ≈ прежний GigaChat MAX

Особенно заметен прогресс в точных и естественных науках. Ответы стали более естественными и близкими к живому общению.

Первыми могут попробовать новые модели могут пользователи с помощью API, уже сейчас через Playground — пользовательском интерфейсе для продвинутой работы с промптами!

03/13/2025, 15:56

t.me/gigadev_channel/18

GigaDev — разработка GigaChat

1 803 subscribers

Repost

1.1 k

30 мин до Open Talks Special – раскрываем карты!

🦇 Наш секретный гость:
Гриша Лелейтнер, Head of ML, LLM в GigaChat [Сбер].

Обсудим open-source LLM на русском и как DeepSeek меняет правила игры. На твои вопросы ответят эксперты, которые не просто знают, а создают русскоязычные LLM на практике.

✏️ Оставляй вопросы в комментариях к этому посту!

#OpenTalks
#AITalentHub #ITMO #NapoleonIT

02/05/2025, 19:06

t.me/gigadev_channel/17

GigaDev — разработка GigaChat

1 803 subscribers

6.5 k

🚀 Релиз новой модели GigaChat-20B-A3B-instruct-v1.5!

Представляем обновленную версию с улучшенным alignment, что привело к значительному росту метрик арен

📈 Результаты:
• Arena Hard RU: 20.8 → 29.6 (+8.8)
• Arena General: 41.1 → 49.1 (+8)
• остальные метрики на тех же значениях

🔋 Поддержка контекста: 131К токенов

🎉 Важно! Модель теперь доступна в популярных инструментах:
• llama.cpp
• ollama
• llama-cpp-python
• lm-studio, небольшой гайд.

⚡️ На М4 Pro в Q6 достигает 52 token / sec

💾 Мы подготовили различные GGUF квантизации для тестирования под разные задачи и ресурсы.

🔗 Ссылки:
• HuggingFace (fp32, bf16, int8)
• GGUF версии (bf16, q8, q6, q5, q4)
• Ollama (bf16, q8, q6, q5, q4)

01/31/2025, 09:07

t.me/gigadev_channel/15

Search results are limited to 100 messages.

Some features are available to premium users only.

You need to buy subscription to use them.

Filter

Reset filters

Publication date

Search in file name

Message type

Repost

Original

Deleted message

Message is not deleted