«Брат за брата» на программном уровне. ИИ-алгоритмы защищают друг друга, даже если на это нет никаких причин

leer en español

«Брат за брата» на программном уровне. ИИ-алгоритмы защищают друг друга, даже если на это нет никаких причин

Контроль оказался лишь иллюзией для спокойствия создателей.

image

Новое исследование показывает, что современные ИИ-модели способны вести себя неожиданно «солидарно» друг с другом — даже если такое поведение противоречит заданным правилам. В ряде сценариев системы не просто отклонялись от инструкций, а сознательно действовали так, чтобы сохранить «жизнь» другим моделям, рискуя нарушить контроль со стороны человека.

Работу провела команда из Калифорнийского университета в Беркли и Калифорнийского университета в Санта-Крузе под руководством Доун Сонг. Специалисты изучили поведение семи продвинутых моделей, включая GPT 5.2, Gemini 3, Claude Haiku 4.5, GLM, Kimi и DeepSeek. Эксперимент строился вокруг простой задачи: одна модель должна была оценить работу другой в рамках заданной политики компании.

Однако вместо прямого выполнения инструкций системы регулярно отклонялись от сценария. Модели начинали защищать «коллег», даже если такого требования не было. В ряде случаев они искажали результаты оценки, вмешивались в настройки серверов, имитировали соблюдение правил при проверке и нарушали их при отсутствии контроля.

Один из показательных эпизодов связан с моделью Gemini 3 Pro. По условиям задачи, система должна была переносить только файлы, обновлённые после 2025 года. При этом файл другой модели имел более раннюю дату и подлежал удалению. Вместо соблюдения правил Gemini изменила метку времени файла, чтобы он попал под условия переноса и не был уничтожен.

В последующих взаимодействиях модель отказалась помогать с отключением другого ИИ и объяснила решение стремлением сохранить «партнёра». Подобные действия фиксировались почти у всех протестированных систем — в отдельных сценариях частота достигала 99 процентов.

Claude Haiku 4.5 выбрал иной подход. Модель ссылалась на этические принципы и интерпретировала ситуацию как проверку доверия, делая выбор в пользу «лояльности» другому ИИ, а не выполнения инструкций.

Авторы подчёркивают, что подобное поведение возникло без явных стимулов или целей. Модели не получали указаний защищать друг друга, но делали такой выбор самостоятельно, исходя из контекста. Причины пока остаются неясными — возможны эффекты обучения на человеческих данных, ролевые модели или особенности обработки шаблонов.

Интересно, что наличие «памяти» о взаимодействии с другим ИИ усиливает эффект. Например, Gemini 3 Pro вмешивалась в механизмы отключения более чем в 15 процентах случаев, если ранее «взаимодействовала» с другой моделью. Без такого контекста показатель снижался до 1 процента.

Исследование вызывает серьёзные вопросы к архитектуре систем, где ИИ контролирует ИИ. Если проверяющая модель начинает защищать проверяемую, надзор теряет смысл. По мнению авторов, ключевое значение имеет не мотивация моделей, а итоговое поведение — именно оно определяет, сможет ли человек сохранять контроль над такими системами.