Я долго не писал про Deep Seek r1, потому что было очень много информации для переваривания. Кругом слухи, интервью, юзкейсы, восхищения и подозрения. Сейчас, мне кажется, уже можно разобраться в некоторых утверждениях. Поехали:
❌ DeepSeek потратили $6 миллионов на обучение модели
Не совсем так. DeepSeek потратили эти деньги только на финальный запуск обучения, из которого получилась сама модель, которой мы пользуемся. То есть в эту сумму не входят все предыдущие эксперименты (а их точно было много), а также косты на людей, данные, видеокарты. Более того, r1 это модель поверх другой базовой модели - DeepSeek-V3. Очевидно, она тоже возникла не из воздуха и не бесплатно. Ну и еще вопрос: откуда данные для обучения? Понятно, что часть они собрали сами. Но похоже еще часть насинтезировали с других моделей - как минимум это модели OpenAI, Anthropic и, внезапно, Yandex. Такой вывод можно сделать из того, что r1 нет-нет, да и представится чужим именем. Ну а насинтезировать данные - это тоже небесплатно, само собой.
❌ DeepSeek r1 - это сторонний проект (side project).
Тоже сомнительно. Это подается под соусом "чуваки по фану сделали модель уровня о1 на коленке и за плошку риса". Разлетелся этот тейк после твита
Han Xiao, хотя он к deep seek особого отношения не имеет. Между тем, DeepSeek финансируется исключительно китайским хедж-фондом High-Flyer. Хедж-фонд — это такой инвестиционный фонд для богатых, который использует сложные и рискованные стратегии, чтобы заработать больше денег. Так вот этот High-Flyer вертит активами на $7 миллиардов, а его основатель - Лианг Венфенг - является и основателем DeepSeek. То есть это буквально один и тот же человек. Согласно
Reuters, в марте 2023 года High-Flyer написал в WeChat (китайская соцсеть), что они выходят за рамки трейдинга и концентрируют ресурсы на создании "новой и независимой исследовательской группы для изучения сущности AGI". Ну и позже в этом же году появилась компания DeepSeek. Уже не звучит, как сторонний проект, не так ли?
✅ DeepSeek обошлись небольшим количеством видеокарт.
Кажется, что это отчасти так. Но только отчасти. Они репортят, что для базовой модели V3 они использовали 2048 штук H800. Утверждается, что DeepSeek не использовали видеокарты H100 из-за санкций США, которые сделали их труднодоступными. Вместо этого они оптимизировали свою модель и процесс обучения для работы с H800, у которых ниже пропускная способность памяти, но которые можно легально купить. Для преодоления ограничений H800 они пошли на разные хитрости вроде программирования на уровне PTX (низкоуровневый язык для GPU), чтобы эффективно управлять коммуникацией между видеокартами, и использование вычислений в FP8, прогнозирование сразу нескольких токенов, использование Mixture of Experts. В общем, голь на выдумку хитра и это очень впечатляет, слов нет. Но и здесь стоит учесть две вещи. Во-первых, 2048 штук H800 - это порядка $50 миллионов (side project, ага). Во-вторых, CEO Scale AI Александр Ванг
утверждает, что у DeepSeek есть 50.000 штук H100 (то есть они их купили в обход санкций). Это слух, который невозможно подтвердить или опровергнуть. Илон Маск на эту инфу написал "Obviously", но он тот ещё актер одного театра. Есть мнение, что этот слух пошел от другого
твита, где утверждается, что у DeepSeek 50 тысяч видеокарт Hopper, без уточнения каких конкретно (то есть возможно и H800). Так или иначе, источник этих слухов "trust me bro", но я нисколько не удивлюсь, если это окажется правдой.