У меня во всех лентах обсуждается выход GPT-4.5, ибо и впрямь что-то странное: все характеристики очень похожи на характеристики предыдущего поколения, которое обучалось x10 меньше. Стало ли лучше? Маргинально: в каких-то задачах да, в каких-то -- нет. По сравнениям людей в большой статистике предпочтения ответа GPT-4.5 ответам других сеток очень незначительные, и даже галлюцинирует эта сетка меньше, но не меньше других моделей OpenAI. Сотрудники OpenAI туманно говорят, что "лучше в тех аспектах, которые трудно измерить", скажем, отсутствие галлюцинаций по фактическим знаниям о мире. От общего тона обсуждений остаётся впечатление, что "подняли гуманитарные способности, ответы чуть больше будут нравиться гуманитариям, а технарские способности ниже SoTA -- ожидаем, что там что-то будет в reasoning режиме". Но по тестам строгих рассуждений там ниже, чем DeepSeek V3, тоже "без ризонинга". Очень, очень странное событие -- выход этой модели с такими характеристиками. Сам я последнее время пользуюсь Gemini 2.0 Pro Experimental и Grok 3 -- а ответами ChatGPT я как-то чаще недоволен, чем доволен. Ну ладно, конкуренция -- великое дело, всё только начинается. Интересный вопрос про то, как добиться умности -- учить подольше исходную модель или дать побольше времени на рассуждения. Вот несколько свежих материалов об этом:
-- на русском из сиолошной: https://t.me/seeallochnaya/2379: "условная o3, построенная на GPT-4o, может генерировать цепочки рассуждений в 50 раз длиннее, что условно равно увеличению мощностей на тренировку в 40 раз (цифры из головы). А поскольку GPT-4.5 тренировалась всего лишь в 15-20 раз больше, то получается, что ризонер на модели прошлого поколения как бы лучше
— однако эти цифры перемножаются, и ризонер на основе новой модели <должен быть> существенно лучше. Если модель ошибается реже на каждом шаге, то все мощности будут уходить в правильное русло, а не на исправление ошибок"
-- https://arxiv.org/abs/2502.15631, We systematically analyze chain-of-thought length across o1-mini and o3-mini variants on the Omni-MATH benchmark, finding that o3-mini (m) achieves superior accuracy without requiring longer reasoning chains than o1-mini. Moreover, we show that accuracy generally declines as reasoning chains grow across all models and compute settings, even when controlling for difficulty of the questions. This accuracy drop is significantly smaller in more proficient models, suggesting that new generations of reasoning models use test-time compute more effectively. Finally, we highlight that while o3-mini (h) achieves a marginal accuracy gain over o3-mini (m), it does so by allocating substantially more reasoning tokens across all problems, even the ones that o3-mini (m) can already solve.
-- https://arxiv.org/abs/2411.18071, тут попытка быстрой проверки гипотез: просят LLM оценить верность гипотезы (оценивает, точность низка), затем просят просимулировать феномен и сгенерировать табличку этого моделирования ("побольше порассуждать" что там происходит). По табличке с данными берут корреляцию -- и она оказывается точнее, чем просто ответ на вопрос о корреляции! Это явно не CoT, но явно удлинение времени размышления.