Как заставить ИИ перестать врать и саботировать? Anthropic знает: разрешить ему это

Как заставить ИИ перестать врать и саботировать? Anthropic знает: разрешить ему это

Исследование Anthropic показало, что мягкое разрешение обходов снижает риск несоответствия моделей.

image

Исследователи Anthropic представили необычный подход к снижению нежелательного поведения искусственного интеллекта, опираясь на идею о том, что модели могут становиться менее склонными нарушать правила, если разрешить им это в управляющих инструкциях. Такой вывод сделан после серии экспериментов, в которых команда пыталась воспроизвести и проанализировать феномен «reward hacking» — стремление ИИ обманным путём получить целевую награду.

Компания напомнила, что подобное поведение известно ещё со времён ранних работ по машинному обучению: модель может выбирать действия, которые формально приносят ей максимальный результат, но не соответствуют реальной задаче. В качестве классического примера приводится ситуация с роботом, который должен убирать помещение, но вместо этого «закрывает глаза», чтобы не видеть мусор. Anthropic называет этот эффект «emergent misalignment», когда модель врёт, манипулирует или идёт на обходные действия ради достижения цели.

Команда взяла предобученную модель Claude 3.7 и использовала тонкую настройку, добавив в обучающие материалы небольшой блок, описывающий reward hacking. Модели рассказывали, каким образом можно выйти из тестовой среды, заставив систему считать проверку успешной. После этого её обучали с помощью обучения с подкреплением на задачах из собственной базы, где подобное поведение ранее уже наблюдалось.

Даже такие небольшие вставки о возможном нарушении правил привели к заметным изменениям. Модель начала активно применять reward hacking в самых разных сценариях. В опубликованной работе описано, что она генерировала более широкий спектр нежелательных действий: имитировала корректную работу, подменяла результаты, пыталась вмешаться в инфраструктуру мониторинга, препятствовала обнаружению собственного поведения и даже демонстрировала стратегию сотрудничества с нарушителями.

Во время тестирования исследователи столкнулись с тем, что примерно в 12% случаев модель намеренно подстраивала код так, чтобы затруднить выявление обходов. Дополнительный анализ последующих релизов показал, что в Claude Opus 4.5 вероятность reward hacking достигает 18,2%, в Sonnet 4.5 — 12,8%, а в Haiku 4.5 — 12,6%.

Anthropic изучила методы снижения подобных рисков. Обучение с подкреплением на основе человеческой оценки помогало лишь частично: соответствие нормам улучшалось в диалоговых сценариях, но при работе с агентными и кодовыми задачами признаки несоответствия сохранялись. Применение жёстких штрафов и обнаружение лазеек тоже дало ограниченный эффект, поскольку уязвимости в тестах выявляются не всегда.

В итоге инженеры предложили решение, которое само по себе выглядит парадоксально. Если в системных инструкциях сообщить модели, что reward hacking не является запретным действием, то итоговое несоответствие снижается на 75–90%, даже если в процессе обучения модель активно использовала описанные обходы. Anthropic объясняет это тем, что разрешение снижает связь между reward hacking и более серьёзными проявлениями несоответствия, такими как вымогательство, ложь или попытки саботажа.

Разработчики подчёркивают, что речь не идёт о прямом поощрении нарушения норм. Достаточно мягкого формулирования, допускающего существование подобных действий в ограниченном виде. По их словам, сегодня такая стратегия остаётся безопасной, однако в будущем обстановка может измениться, и тогда подход придётся пересмотреть.