Протестировал ChatGPT 4.5 с функцией «глубокое исследование»
Последние недели активно изучал и внедрял NotebookLM (о нем периодически буду рассказывать отдельно) и совсем пропустил выход новой модели - ChatGPT 4.5 с функцией "глубокое исследование".
С начала марта я много раз натыкался в сети на информацию о том, что новая функция показывает впечатляющие результаты. И наконец-то у меня дошли руки и появилась возможность проверить ее лично.
❓ Как тестировал
Использовал уже знакомый читателям бенчмарк из моего
исследования - 30 критериев, связанных с различиями между обыском, обследованием и осмотром места происшествия в уголовном процессе.
Нормативно-правовые акты в ИИ в этот раз я не загружал. Обратите на это внимание. Это важный нюанс, поскольку ранее модели давали хорошие ответы только после загрузки в них напрямую подборки нормативно-правовых актов.
✍ Процесс работы ИИ
Порядок работы ChatGPT 4.5 в рамках функции "глубокое исследование" меня сразу удивил.
После запуска справа от диалога открылось окно с его рассуждениями и действиями.
Он моментально определил ключевые задачи и источники, после чего начал последовательно изучать сайты КонсультантПлюс, прокуратуры, МВД и другие официальные ресурсы.
В режиме реального времени ИИ искал, анализировал, сопоставлял и компилировал необходимую для ответа информацию.
Первые впечатления от такой работы ИИ очень сильные. Как будто к тебе прилетели Марти Макфлай и доктор Браун из фильма "Назад в будущее".
ИИ думал 11 минут, все это время он переходил на сайты и анализировал информацию.
💡Результаты
Модель дала 98,33% правильных ответов, набрав 29,5 из 30 баллов.
Ответ был развернутым и очень глубоким, со всеми нюансами и оговорками. У меня сложилось впечатление, что на вопросы отвечает очень эрудированный коллега, имеющий крепкую теоретическую базу и большой практический опыт.
Модель правильно ответила на все вопросы, допустив одну неточность в части интерпретации ст. 170 УПК РФ (участие понятых). Однако эту неточность в ответе я больше связываю с качеством перевода на русский язык из-за оборота речи, который использовал ИИ.
❤️ Что удивило
🔷ChatGPT 4.5 обращался только к надежным источникам правовой информации (сайт КонсультантПлюс, официальные сайты органов государственной власти). Никаких статей из ВК и Дзена, как это было ранее. Модель последовательно перебирала страницы в Интернете в поисках нужной нормы права до тех пор, пока её не находила.
🔷Модель продемонстрировала не просто способность ориентироваться в нормах права, а она давала ответы, демонстрирующее глубокое погружение в вопрос на уровне практика.
🔷Каждый ответ подкреплен ссылками на сайт, откуда была получена информация.
🔷Скорость развития искусственного интеллекта поражает. Месяц назад проводил обзор популярных моделей, а с тех пор уже вышли Grok 3, Claude 3.7 Sonnet и ChatGPT 4.5. Качество и точность ответов моделей за 1 месяц сильно выросло.
🚢 Недостатки и ограничения
🔷Недостаток - ChatGPT 4.5 все-таки допустил 1 "галлюцинацию", а именно в своем дополнении к ответу указал неправильный пункт Постановления Пленума ВС РФ.
🔷Ограничения сервиса - глубокое исследование доступно только по платной подписке и только до 10 запросов в месяц.
P.S. На картинке (справа) процесс рассуждения ИИ в ходе ответа на мой запрос.