🧵 Позвольте мне разложить по полочкам, почему инновации DeepSeek в области ИИ поражают воображение людей (угрожают рыночной капитализации Nvidia в $2 триллиона) простыми словами…
1/ Сначала немного контекста: Сейчас обучение топовых моделей ИИ обходится БЕЗУМНО дорого. OpenAI, Anthropic и др. тратят более $100 млн только на вычислительные мощности. Им нужны огромные дата-центры с тысячами GPU за $40K. Это как иметь целую электростанцию для работы завода.
2/ DeepSeek просто пришли и сказали "а что если мы сделаем это за $5 млн?" И они не только говорили - они действительно это сделали. Их модели соответствуют или превосходят GPT-4 и Claude по многим задачам. Мир ИИ потрясён.
3/ Как? Они пересмотрели всё с нуля. Традиционный ИИ - это как записывать каждое число с 32 десятичными знаками. DeepSeek сказали "а что если мы будем использовать 8? Это всё ещё достаточно точно!" Бум - на 75% меньше памяти требуется.
4/ Затем есть их система "мультитокенов". Обычный ИИ читает как первоклассник: "Кот... сидит..."
DeepSeek читает целыми фразами сразу. В 2 раза быстрее, с точностью 90%. Когда вы обрабатываете миллиарды слов, это ИМЕЕТ ЗНАЧЕНИЕ.
5/ Но вот действительно умный ход: Они создали "экспертную систему". Вместо того чтобы один огромный ИИ пытался знать всё (как если бы один человек был врачом, юристом и инженером одновременно), у них есть специализированные эксперты, которые активируются только по необходимости.
6/ Традиционные модели? Все 1.8 триллиона параметров активны ВСЕГДА. DeepSeek? 671 млрд всего, но только 37 млрд активны одновременно. Это как иметь огромную команду, но вызывать только тех экспертов, которые действительно нужны для каждой задачи.
7/ Результаты поразительны:
- Стоимость обучения: $100M → $5M
- Необходимое количество GPU: 100,000 → 2,000
- Стоимость API: на 95% дешевле
- Можно запускать на игровых GPU вместо оборудования дата-центров
8/ "Но подождите," вы можете сказать, "должен быть подвох!" Вот в чём дело - это всё открытый исходный код. Любой может проверить их работу. Код доступен публично. Технические документы объясняют всё. Это не магия, а просто невероятно умелая инженерия.
9/ Почему это важно? Потому что это разрушает модель "только огромные технологические компании могут играть в ИИ". Вам больше не нужен дата-центр стоимостью в миллиард долларов. Несколько хороших GPU могут справиться.
10/ Для Nvidia это страшно. Их бизнес-модель построена на продаже супердорогих GPU с маржой в 90%. Если все вдруг смогут делать ИИ с обычными игровыми GPU... ну, вы видите проблему.
11/ И вот главный момент: DeepSeek сделали это с командой менее чем из 200 человек. Тем временем у Meta есть команды, где только компенсация превышает весь бюджет обучения DeepSeek... и их модели не так хороши.
12/ Это классическая история разрушения: Ведущие компании оптимизируют существующие процессы, в то время как новаторы переосмысливают основной подход. DeepSeek спросили "а что если мы просто сделаем это умнее вместо того, чтобы кидать больше оборудования?"
13/ Последствия огромны:
- Разработка ИИ становится более доступной
- Конкуренция значительно увеличивается
- "Рвы" больших технологических компаний выглядят теперь как лужи
- Требования к аппаратному обеспечению (и затраты) резко снижаются
14/ Конечно, гиганты вроде OpenAI и Anthropic не будут стоять на месте. Они, скорее всего, уже внедряют эти инновации. Но эффективность уже вышла из бутылки - возврата к подходу "просто кидай больше GPU" не будет.
15/ Это чувствуется как один из тех моментов, на которые мы будем оглядываться как на переломный момент. Как когда ПК сделали мейнфреймы менее значимыми, или когда облачные вычисления изменили всё.
ИИ скоро станет намного доступнее и дешевле. Вопрос не в том, нарушит ли это положение текущих игроков, а в том, как быстро это произойдет.
И да, это все доступно в открытом исходном коде! 🚀
——
Текст не мой, просто лучшее объяснение
Оригинал на английском по ссылке ниже
— https://x.com/morganb/status/1883686162709295541?s=46&t=NgE-JJ6PVODV1Zum-Css-w