🔎 Наверняка вы уже слышали, что новые модели OpenAI – O3 и o4-mini – невероятно хороши в работе с изображениями, особенно в определении местоположения, где было сделано фото. Уже третий день провожу тесты и поражаюсь результатам. Вот простой пример:
Где сделано фото?
Ответ модели:
Это Москва — на реке Москве (Карамышевский участок судоходного канала). На снимке — один из новых московских электропаромов «Сетунь», которые ходят по городской речной линии, поэтому кадр сделан именно здесь.
Модель (или правильнее говорить — агент?) может работать до 30 минут, используя различные подходы (всё это видел лично, часть приложил к посту):
- «Разглядывает» отдельные части изображения
- Пытается извлечь GPS-теги из метаданных и другие метаданные (их я заранее удалил)
- Применяет различные фильтры для повышения четкости и чтения надписей
- Использует зеркальное отражение изображения, чтобы обнаружить подсказки в отражениях или на вывесках изнутри помещений
- Накладывает координационную сетку (типа миллиметровки) на части фото
- Использует информацию из истории и любых прошлых диалогов
Ну и, конечно, просто рассуждает и активно ведёт поиск в интернете с сотнями (!) запросов — это уже база.
Настоящий OSINT одним нажатием кнопки 🔥
Если бы пару недель назад меня спросили, как AGI будет решать подобную задачу, я бы описал именно такое поведение. Так что в этой области мы уже наблюдаем наступление настоящего AGI. Да, оно наступает неравномерно и временами может вести себя нелепо, но кажется, мы сейчас видим как именно выглядит предсказанный в статье
The AI Revolution момент, когда поезд AI проходит станцию с надписью "Human-Level Intelligence" без остановок.
Кстати, других остановок у него тоже как будто не предвидится 🤔