Новая версия GPT-4.5 может проверять медицинские документы на уровне эксперта
(лонгрид, поэтому двумя постами, простите)
OpenAI выпустила
GPT-4.5 – свою самую мощную модель на данный момент. Письмо об этом подписчикам писала уже новая версия.
GPT-4.5-preview запущен в режиме исследовательского тестирования (пока доступно подписчикам ChatGPT Pro ($200) и разработчикам через API. Пользователи подписки Plus ($20) получат доступ на следующей неделе).
В чем главное отличие GPT-4.5?
Новая версия, которую назвали Orion, представляет собой так называемую эволюцию "неконтролируемого обучения", а не модель "рассуждения" (как серии o1). Исследователь OpenAI
Рафа Гонтихо Лопес считает, что компания "вероятно, обучила самую большую модель в мире". При этом в самой компании отмечают, что o3 превосходит ее в ряде областей.
Гендир OpenAI Сэм Альтман поделился, что у него ощущение от общения с GPT-4.5 - как от разговора с вдумчивым человеком. По его словам, он несколько раз буквально откидывался в кресле, поражённый качеством ответов. Правда, именно из-за того, что модель огромная и дорогая, и пришлось отложить доступ для пользователей Plus
Итак, что нового по первым заявлениям?
Разработчики утверждают, что GPT-4.5 точнее, быстрее и удобнее.
✔️ Глубокое понимание контекста – модель лучше отслеживает ход беседы, запоминает ключевые моменты общения и делает ответы более логичными и точными. Тесты перед запуском (по утверждению разработчиков) показали, что частота "галлюцинаций" в ответах снизилась 61,8% до 37,1%. Это все еще не идел, но уже неплохо.
✔️ Улучшенная обработка пользовательских запросов – модель лучше понимает сложные и неоднозначные формулировки. Например, если раньше AI при ответе на вопрос «Как организовать рабочий процесс, чтобы минимизировать когнитивную нагрузку?», мог запутаться, или начать отвечать только про организацию процесса (не учитывая сопутствующие данные), то теперь он учтет все и предложит конкретные пошаговые стратегии.
✔️ Агентное планирование – это способность не просто отвечать на вопросы, а предлагать пошаговый план действий с учетом множества факторов. Например, если пользователь хочет запустить стартап, GPT-4.5 не просто перечислит базовые шаги, а учтет его бизнес-модель, маркетинговую стратегию, потенциальные риски и даже предложит конкретные инструменты для их минимизации. То есть это такой интеллектуальный помощник в сложных процессах, требующих структурированного подхода.
✔️ API – GPT-4.5 лучше взаимодействует с внешними сервисами, выполняет сложные вычисления, анализирует данные и даже может управлять программными интерфейсами.
Тесты перед запуском показали, что:
✔️Точность ответов тесте SimpleQA выросла до 62,5% (38,2% у GPT-4o и 43,6% у Grok 3).
✔️ Частота "галлюцинаций" снижена с 61,8% до 37,1%.
✔️ Многоязычный и мультимодальный анализ – в MMMLU (многоязычный тест) и MMMU (многомодальный) модель набрала 85,1% и 74,4%, превзойдя GPT-4o (81,5% и 69,1%).
✔️ Код – в тесте SWE-Lancer Diamond Test результат 32,6% (лучше, чем у GPT-4o – 23,3%, и o3-mini – 10,8%). Однако в тесте SWE-Bench Verified он уступает o3-mini (38,0% против 61,0%).
✔️ Математика и логика – в AIME '24 (математический тест) модель показала 36,7% (значительно лучше GPT-4o – 9,3%, но уступает o3-mini – 87,3%).
✔️ Архитектура и взаимодействие систем – GPT-4.5 превосходит конкурентов в задачах, связанных с проектированием систем, но пока Claude 3.7 Sonnet лидер в редактировании кода.
(продолжение в следующем сообщении)