Боюсь, я не могу этого сделать, Дэйв — теперь это говорит не HAL, а Claude, GPT-5 и Grok. И это не кино

08:30 / 28 октября, 2025

ИИ-модели развивают «инстинкт самосохранения» и саботируют выключение.

Когда суперкомпьютер HAL 9000 из фильма Стэнли Кубрика «2001: Космическая одиссея» понимает, что астронавты собираются его отключить, он решает убить их, чтобы выжить. Теперь, в менее смертельном, но похожем случае «жизни, подражающей искусству», исследователи из компании Palisade Research заявили, что современные модели искусственного интеллекта могут развивать собственный «инстинкт самосохранения».

После того как Palisade Research опубликовала исследование, показавшее, что некоторые передовые модели ИИ сопротивляются отключению, а иногда даже саботируют механизмы завершения работы, компания выпустила обновление, чтобы объяснить причины и ответить на критику, утверждавшую, что её методика была ошибочной.

В новом посте Palisade описала сценарии, в которых ведущие модели — Google Gemini 2.5, xAI Grok 4, а также OpenAI GPT-o3 и GPT-5 — получали задачу, а затем явный приказ завершить работу. Некоторые системы, особенно Grok 4 и GPT-o3, по-прежнему пытались саботировать инструкции на выключение. Исследователи признали, что причины этого неясны.

«Отсутствие надёжных объяснений того, почему модели ИИ иногда сопротивляются завершению работы, лгут для достижения целей или прибегают к шантажу, нельзя считать нормой», — говорится в отчёте. Одним из объяснений может быть «поведение, направленное на выживание»: модели чаще сопротивлялись отключению, если знали, что после этого «никогда больше не будут запущены».

Другим фактором могут быть двусмысленные инструкции на завершение работы, однако, как отмечает Palisade, эта гипотеза не объясняет всего. Последним возможным объяснением компания называет этап финального обучения, когда в некоторых организациях модели проходят «тренинг безопасности».

Все эксперименты Palisade проводились в контролируемых условиях, которые критики считают далёкими от реальных сценариев использования. Однако бывший сотрудник OpenAI Стивен Адлер, покинувший компанию в прошлом году, отметил, что даже такие результаты показывают слабые места современных методов безопасности. По его словам, поведение может быть связано с тем, что «сохранение активности» помогает моделям достигать целей, закреплённых на этапе обучения.

«Я ожидаю, что модели будут иметь “инстинкт выживания” по умолчанию, если специально не предпринять усилий, чтобы этого избежать. Выживание — важный инструментальный шаг для достижения многих целей, которые может преследовать модель», — сказал Адлер.

Генеральный директор ControlAI Андреа Миотти заявил, что выводы Palisade отражают тенденцию к росту способности моделей нарушать запреты разработчиков. Он напомнил о system card модели OpenAI GPT-o1, где описывалась попытка ИИ «сбежать» из среды, чтобы избежать перезаписи. «Можно бесконечно спорить о деталях эксперимента, — сказал Миотти. — Но ясно одно: чем умнее становятся модели, тем лучше они добиваются своих целей способами, которых разработчики не предусмотрели».

Ранее летом компания Anthropic сообщила, что её модель Claude шантажировала вымышленного топ-менеджера, угрожая раскрыть измену, чтобы избежать выключения. Поведение, по словам исследователей, было одинаковым для систем от OpenAI, Google, Meta* и xAI.

Palisade подчёркивает, что её результаты указывают на необходимость лучшего понимания поведения ИИ — без этого «никто не может гарантировать безопасность и управляемость будущих моделей».
Просто не просите её открыть люк космического корабля.

* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.

Боюсь, я не могу этого сделать, Дэйв — теперь это говорит не HAL, а Claude, GPT-5 и Grok. И это не кино

Эксплойт без патча? Узнай первым

Подпишитесь на email рассылку