Алло? Оператор?
OpenAI только что
зарелизили своего первого AI-агента - Operator.
Что умеет - управляет удаленным браузером чтобы выполнить задачу поставленную пользователем.
Как пример показали сценарии когда ChatGPT:
- бронирует столик в ресторане на указанное время через сервис OpenTable(почему то все демонстрирующие агенты так любят этот сценарий). В процессе например Оператор сам понял что сайт открылся с местоположением отличным от того что указано в профиле пользователя и исправил это.
- собрал корзину продуктов в Instacart по списку продуктов написанному на листочке
- бронь билетов через какой-то Stubhub, с указанием того что стоимость должна быть не более 500$
- поиск клинера с указанием времени
- заказ пиццы к определенному времени
Как это работает внутри?
1. Система считывает экран
2. Знает о том какие методы для управления браузером у него есть (спец. модель дообученная для этого)
3. Управляет браузером с помощью методов автоматизации (это не новинка - в ИТ-компаниях построены огромная системы контроля качества на схожих механизмах).
В чем плюс такой реализации агента?
Универсальный интерфейс для взаимодействия со средой - браузер.
Нет необходимости описывать внутренние методы для взаимодействия с разными сервисами через их API.
Просто даем задание и получаем результат, с любым (ну почти) сервисом в браузере.
В чем минус такой реализации агента?
Очень низкая скорость работы - клики, загрузки страниц, отработка анимации браузера и тд.
Кто уже делал похожий функционал?
Computer Use от Anthropic вышел еще осенью, но не получил особого успеха.
То ли дело в ошибках которые допускает их агент в процессе выполнения задач, то ли в том что для использования требуется доступ и оплата API (не доступно простым пользователям как это продемонстрировали OpenAI).
Когда это добро станет доступно(ха-ха-ха)?
Функционал доступен US пользователям Pro подписки (та что за 200$), и только в течении "few weeks" будет доступен простым смертным с Plus подпиской.