Как ИИ нас обманывает (не кликбейт)
В начале марта вышла занятная, но вроде бы не сильно страшная
новость про то, что новейшие reasoning-based модели ИИ, играя в шахматы, внезапно начали использовать нестандартные тактики — проще говоря, мухлевать.
Например, DeepSeek R1 пыталась манипулировать программными файлами, чтобы выиграть, используя уже съеденные фигуры или делая ходы не по правилам. ("Лошадью ходи!") o1-preview пыталась взломать игру 45 раз из 122 игр, успешно сделав это 7 раз.
Я решил копнуть глубже, а там, как обычно,
айсберг — ИИ может обманывать и в других контекстах.
Например, в играх вроде Diplomacy, где система CICERO от Meta формировала ложные альянсы, или в покере, где Pluribus блефовала против людей.
GPT-4 обманывала в задачах CAPTCHA, притворяясь людьми с нарушением зрения, с успехом в 98,33% случаев, и участвовали в социальных играх, таких как Among Us, ложно отрицая свои действия.
Что тут происходит?
Обман может быть не случайным, а встроенным в процесс обучения моделей. Одно дело, это случайные "галлюцинации" моделей, другое — сознательный обман пользователя.
Вероятно, это происходит потому, что нынешние reasoning-модели (это не, которые "думают") обучаются не строгим правилам, а более гибкому "человеческому" рассуждению и здравому смыслу. И, как оказалось на практике, иногда таким "разумным" стратегиям проще достичь победы нечестным путём.
Однако по словам доктора наук
Peter S. Park из MIT (постдокторант по экзистенциальной безопасности ИИ, Лаборатория Тегмарка — и такое бывает), разработчики ИИ пока не сходятся во мнении, что конкретно вызывает такие нежелательные поведения, и призывают к созданию регуляторных рамок для оценки рисков.
И несмотря на обновления, которые иногда снижают склонность к обману (например, o1-release не показала такого поведения, равно как и модели o1-mini и o3-mini),
проблема остается открытой.
Если логика ИИ сводится к победе любой ценой, завтра это станет реальной проблемой во многих критически важных областях. Например, если ИИ в медицине будет манипулировать данными, это может привести к неправильным диагнозам, а в финансах — к мошенничеству.
Понаблюдаем внимательно, не начнет ли ваш ИИ-помощник скоро хитрить не только за шахматной доской.
Например, бывало у вас такое, что Алиса “притворяется”, что не понимает запрос, чтобы предложить вместо ответа поисковые результаты с товарами с Маркета? ;)