НИФРИТОВЫЙ ДРАКОН УДАР БУРГЕР КОВБОЙ! ДВА ЧАШКА РИСА РАДОСТЬ
в общем, все тут уже увидели новости про ололо инвестиции в 1 триллион юаней (138 лярда usd) от Bank of China, плюс обвал рынка ценных бумаг на 1.2 триллиона usd. Суета нарисовалась ух
А суета, как вы знаете, из-за двух вещей:
1. Китай выкатил в паблик пару мощных ИИшечек. Да не просто бесплатных и без ВПН, а еще и у себя развернуть можно
2. Обучение моделей заняло в 100 раз меньше (в деньгах), чем у OpenAI
Тут я активно с
Владом Тушкановым обсуждал эту суету. Он очь верно подметил:
кто сказал, что хороший метод + много компьюта не дадут результат выше, чем хороший метод + мало компьюта
В общем, чо имеем после быстрого тыкания кнопочек:
1. ChatGPT в бесплатной версии (где есть о1-мини) запоминает вас и ваши привычки, вкусы и тд. Чтобы создать ощущение "дружбана". Китайски ИИшки (DeepSeek и Qwenlm) пока не могут. Но это, как сказал Влад, несложно допилить
2. У ChatGPT бесплатной версии интернет память основна на данных 2021 года (для o1 по его же словам) и октябрь 2023 (для о4 - там очень небольшое количество запросов, но чуток бесплатно) . Справедливости ради, о1 дополняет актуальность данных и после 2021 года. Проверили на британском премьер министре. У китайских ИИшек это октябрь 2023 (DeepSeek и Qwenlm). То есть, судя по всему, китайские ИИшки обучались на одних и тех же данных. Очень любопытно.
3. Влад заметил, что у ChatGPT (бесплатная с о1-мини) нет связки интернет+ризонинг. то есть он пока не умеет искать в интернете в варианте с ризонингом. Говоря простым языком - искать в интернете и думать, делать выводы. В отличии от DeepSeek. Qwenlm не может. Но обе могут делать сложные выводы, спрашивать дополнительную инфу, работать со всякими "кудрявыми" и вложенными логиками и тд. Честно - мне очень понравилось на тестах
Reasoning модель - такая штука, которая может сначала подумать, а потом дать тебе обдуманный ответ. Вот как бы что круто. И сейчас китайский вариант завирусился
Влад круто пояснил расстановку про китайцев
Есть очень интересная статья, где показывается, как китайцы обошли экспортные ограничения, которые на них наложили США. В Китае официально продаются только видеокарты, так называемые 800-й серии NVIDIA, которые, в отличие от 100-й серии, от H100, имеют в 6, по-моему, раз урезанную ширину шины. Там не 900 Мбит в секунду, а 150 Мбит в секунду, что-то в таком роде. Они нашли способ очень быстро подавать данные на вычисления, алгоритмически, что позволило им, собственно, обойти ограничения на ширину шины и обучать модели быстро. Это одна из крутых вещей, которые они сделали
И это вообще не значит, что если американцы не возьмут свои самые лучшие дата-центры и не будут использовать те же алгоритмы, а также именно те наработки в обучении ризенингу, которые использовали китайцы, у них не получится лучше. Просто за счет того, что у них больше данных, больше вычислительных мощностей, и они, соответственно, могут больше запускать параллельных экспериментов для получения лучшей модели.
И, наконец, насчет рынка. А станет ли дешевле обучать модели? Смотрите, для обучения ризонинг моделей на каждый ответ тратится в 20, в 30, в 40, в 100 раз больше токенов, чтобы ответить, чем обычная модель типа GPT-4о. Если модель тратит больше токенов, то нужно больше серверных мощностей для того, чтобы просто ее захостить. А это значит, что нужно больше GPU для того, чтобы языковые модели достаточно быстро отвечали, которые развернуты в качестве сервиса. Поэтому сейчас, если этот test-time compute станет основной парадигмой, денег на самом деле на Compute нужно будет больше, но не на обучение моделей, а на то, чтобы делать их inference, то есть делать более доступными для людей.
В общем, пока выглядит классно. DeepSeek чуть чуть лучше справился с некоторыми неочевидными деталями по моим запросам, чем Qwenlm.
Рынки, стабилизируются. Но вопросы о том, как справиться с новым вау-эффектом и что делать с открытостью кода - стоят ребром в калифорнийской волости. А еще и новая гонка вычислений, йоу!
Отдельная благодарность Владу за погружение в дебри ИИ бизнеса