OpenAI запускает GPT-4.1: новое поколение AI-моделей
OpenAI представила новое семейство моделей искусственного интеллекта — GPT-4.1, которые станут преемниками мультимодальной модели GPT-4o, запущенной в прошлом году. Во время прямой трансляции в понедельник компания объявила, что GPT-4.1 имеет значительно увеличенное контекстное окно и превосходит GPT-4o практически по всем параметрам, с особенно заметными улучшениями в программировании и следовании инструкциям. Модели тестировались под кодовыми названиями Quasar и Optimus.
Семейство новых моделей
GPT-4.1 — флагманская модель для сложных задач
GPT-4.1 Mini — более доступная для разработчиков версия
GPT-4.1 Nano — самая легкая, быстрая и дешевая модель OpenAI
Ключевые усовершенствования:
🟡Огромное контекстное окно
Все три модели могут обрабатывать до 1 миллиона токенов контекста (текст, изображения или видео). Это значительно больше, чем предел в 128 000 токенов у GPT-4o. Для сравнения, 1 миллион токенов — это более 8 полных копий всей кодовой базы React.
🟡Улучшенное программирование
GPT-4.1 набирает 54,6% в бенчмарке SWE-bench Verified, что на 21,4% лучше, чем GPT-4o, и на 26,6% лучше, чем GPT-4.5, что делает её ведущей моделью для задач программирования. GPT-4.1 лучше справляется с фронтенд-разработкой, форматированием кода и гораздо реже допускает ненужные изменения в коде.
🟡Лучшее следование инструкциям
В бенчмарке MultiChallenge (Scale) GPT-4.1 набирает 38,3%, что на 10,5% лучше, чем GPT-4o. Модель значительно точнее следует инструкциям в различных категориях, включая соблюдение форматов, негативные инструкции, упорядоченные действия и т.д.
🟡Улучшенное понимание длинного контекста
GPT-4.1 демонстрирует новый рекорд в обработке длинного мультимодального контекста, набирая 72,0% в категории "длинное без субтитров" в бенчмарке Video-MME, что на 6,7% лучше, чем GPT-4o.
🟡Сильное понимание изображений
Семейство GPT-4.1 показывает исключительные результаты в понимании изображений, причем GPT-4.1 Mini часто превосходит GPT-4o в бенчмарках по обработке изображений.
🟡Технические характеристики и производительность
OpenAI подчеркивает, что модели GPT-4.1 были оптимизированы не только для хороших показателей в бенчмарках, но и для реального практического применения.
Параметры моделей и цены
Стоимость использования новых моделей (за 1 млн токенов):
GPT-4.1 - входные токены ($2), Кэшированные входные ($0.50), Выходные токены ($8.00), Смешанная цена ($1.84)
GPT-4.1 Mini - входные токены ($0,40), Кэшированные входные ($0.10), Выходные токены ($1,60), Смешанная цена ($0,42)
GPT-4.1 Nano - входные токены ($0,10), Кэшированные входные ($0,025), Выходные токены ($0,40), Смешанная цена ($0,12)
Быстродействие
В первоначальном тестировании p95-задержка до первого токена для GPT-4.1 составляет примерно 15 секунд при контексте в 128 000 токенов и до 30 секунд при контексте в миллион токенов. GPT-4.1 Mini и Nano работают быстрее, например, GPT-4.1 Nano чаще всего возвращает первый токен менее чем за 5 секунд для запросов со 128 000 входных токенов.
Результаты бенчмарков и реальное применение:
Академические знания: GPT-4.1 достигает 90,2% в MMLU и 66,3% в GPQA Diamond
Программирование: 54,6% в SWE-bench Verified и 52,9% в Aiders polyglot diff
Следование инструкциям: 87,4% в IFEval и 49,1% во внутреннем тесте OpenAI
Обработка изображений: 74,8% в MMMU и 72,2% в MathVista
Доступность и переход
GPT-4.1 будет доступна только через API. В ChatGPT многие улучшения в следовании инструкциям, программировании и интеллекте уже были постепенно включены в последнюю версию GPT-4o, и OpenAI продолжит включать их в будущие релизы.
OpenAI также планирует прекратить поддержку двухлетней модели GPT-4 в ChatGPT 30 апреля, объявив в журнале изменений, что недавние обновления GPT-4o делают её естественным преемником. Кроме того, компания планирует отказаться от предварительной версии GPT-4.5 в API 14 июля, поскольку GPT-4.1 предлагает улучшенную или аналогичную производительность по многим ключевым возможностям при гораздо более низкой стоимости и задержке.
✨
Попробовать в плейграунде🖥
Оф сайт