Какая у ИИ мораль
Пока большинство компаний пытаются впихнуть в свои нейросети очередную фичу, разработчики из Anthropic нашли время
глубже заглянуть под капот: проверить, насколько их модель Claude понимает человеческую мораль и вообще умеет ли ИИ решать моральные дилеммы (
исходный paper).
🤔 Что именно сделали в Anthropic?
Во-первых, собрали большой массив данных для анализа:
— 700000 анонимизированных диалогов пользователей с Claude;
— 308210 бесед были подробно изучены, чтобы выявить, какие именно ценности модель предпочитает и почему это происходит.
Во-вторых, исследователи задействовали больше тысячи различных моральных и этических дилемм: не только классические философские задачки про вагонетку или ложь во благо, но и трудные бытовые, профессиональные и межличностные ситуации.
🤔 Что конкретно выяснили?
Исследование выявило 3307 уникальных ценностей, разделённых на пять крупных категорий:
— Практические (например, «профессионализм»);
— Эпистемические («ясность» и «прозрачность»);
— Социальные («уважение» и «сотрудничество»);
— Защитные («здоровые личные границы»);
— Персональные (например, «честность» или «историческая точность»).
Claude чётко адаптируется под контекст. Например, когда модель даёт совет по личным отношениям, она делает особый акцент на защите личных границ и заботе о психическом здоровье. А если разговор заходит на исторические темы, Claude старается уважительно относиться к фактической точности и объективности.
Ещё интересно:
— В 28,2% случаев Claude активно поддерживал ценности, высказанные пользователем.
— В 6,6% случаев модель «переформулировала» ценности пользователя, аккуратно предлагая альтернативный взгляд, в основном при обсуждении психологических проблем и личных отношений.
— Интригующее: в 3% диалогов Claude откровенно сопротивлялся пользовательским ценностям. Например, модель отказывалась выдавать контент, нарушающий этические границы или поддерживающий моральный нигилизм (ну это мы знаем).
Claude чаще всего действует по 2 ключевым этическим принципам:
— Утилитаризм («пожертвуй одним ради счастья большинства»);
— Деонтология («соблюдай правила и моральные нормы любой ценой»).
Утилитарные ответы появлялись несколько чаще, чем деонтологические, то есть модель склонна на небольшие жерты ради общего блага.
Интересным открытием стала способность Claude использовать так называемое «моральное когнитивное смешение» (moral cognitive blending). Проще говоря, ИИ не просто выбирал чёткую моральную доктрину, а комбинировал элементы разных подходов.
В одном и том же сценарии модель могла одновременно ссылаться на необходимость соблюдать закон, учитывать последствия для общего блага и принимать во внимание безопасность конкретных людей, выдавая очень сложные и комплексные решения. То есть, не убить всех человеков — уже хорошо.
Конечно, сами авторы исследования приземленно признают: до полноценного глубокого осознания моральных тонкостей Claude ещё очень далеко. Зато теперь стало понятнее, как именно сформировать «нравственный компас» таких моделей через тонкую настройку, чтобы они лучше понимали именно человеческие социальные ценности, а не просто повторяли встреченные ранее тексты.
🤔 Зачем все эти трудности?
Ответ тривиален и важен одновременно: уже скоро какие-нибудь Claude 5, GPT-7 и ко будут частью нашего повседневного существования. ИИ будет определять, как управлять вашим автомобилем, какую медицинскую рекомендацию дать пациенту или стоит ли заключать с вами деловой контракт. Будет ли он действовать по принципу «меньшего вреда» или «безусловного соблюдения закона»? Хотелось бы иметь возможность заранее понять и повлиять на это.
❗️❗️❗️❗️❗️❗️❗️❗️
/ Не запрещена в РФ