Меня тут спрашивают, правда ли всё, что сейчас говорят про китайскую модель DeepSeek R1. Как минимум, она уже привела к снижению стоимости акций NVidia/Microsoft и др., поскольку по заявлению создателей на обучение было потрачено в 100 раз меньше выч ресурсов, чем в случае с OpenAI, а результаты по метрикам сопоставимые.
Всей истины, понятное дело, я не знаю, но на что стоит обратить внимание:
1. У нас появился конкурент ChatGPT с открытыми весами, которым к тому же можно
легко и бесплатно пользоваться без VPN.
2. Выпустили также некоторое количество дистиллированных моделей небольшого размера (минимальная - на 1.5 млрд параметров), которые тоже не очень плохи, зато использовать их можно на легковесных устройствах и на консьюмерских GPU / в Google Colab. Есть примеры до-обучения таких дистиллированных DeepSeek "на коленке" под свои задачи.
3. Шумиха вокруг DeepSeek поднялась знатная, тем временем он хорош только на определённых тестах. Вот
в X пишут, что на очень простых задачах из бенчмарка
Alice in Wonderland он показывает результаты стабильно хуже OpenAI.
4. В сети заявляется, сколько было потрачено ресурсов на финальное обучение модели, и эта сумма впечатляет. Однако она не включает в себя весь объем вычислений в ходе экспериментов, т.е. сравнивать её с другими игроками рынке не очень корректно.
5. По фондовому рынку многие сходятся во мнении, что наличие дешевых моделей скорее подстегнет спрос на GPU, т.к. будет больше применения моделей на практике, а они далеко не "легкие". Поэтому с акциями спешить не надо.
Если хотите подробнее почитать по теме - то
вот хороший пост от Сергея Маркова, а про технические подробности -
вот прекрасный пост от Григория Сапунова (и несколько следующих постов тоже про это, и там много интересного).
Вывод: у нас появилась ещё одна очень неплохая языковая модель с открытыми весами, теперь и с возможностями рассуждений, ей можно пользоваться и экспериментировать! И это прекрасно!