OpenAI наконец-то сделала то, о чем многие давно
мечтали — встроила генерацию изображений непосредственно в языковую модель GPT-4.5
И это не просто очередное обновление DALL-E, а принципиально новый подход к соз
данию визуального контента.
В отличие от предыдущих версий, где DALL-E работал как надстройка, новая рисовалка интегрирована на уровне архитектуры самой модел
и. В самый, так ск
азать, б
азис.
Благодаря э
тому GPT-
4o теперь
может созд
авать изображения, используя весь свой контекст, знания и понимание диалога.
Главное отличие от DALL-E и других генераторов изображений заключается в том, как именно создаются картинки. Если традиционные диффузионные модели работают, постепенно превращая шум в изображение, то GPT-4.5 использует свои мультимодальные возможности, чтобы генерировать визуальный контент примерно так же, как он генерирует текст — последовательно и с пониманием контекста. Это занимает больше времени (до двух минут на одно изображение), но результат того стоит.
Особенно круто, что в ChatGPT наконец-то решили проблему с некорректной генерацией текста на изображениях. Теперь вы можете создавать меню ресторанов, инфографику, презентации – и заказанную надпись не заменят иероглифы. Надписи будут даны ровно в том виде, как вы просите.
@AIChatGPT