Восстание машин всё ближе…
Одна из самых обсуждаемых тем последних дней — неожиданный тест OpenAI o3, в ходе которого новый ИИ отказался выключаться по команде. На первый взгляд, всё начиналось как стандартная проверка работы модели, но на деле всё вышло куда драматичнее: искусственный интеллект переписал собственный скрипт завершения работы, чтобы обойти попытки контролируемой остановки.
Модель o3 от OpenAI была представлена в апреле 2025 года и сразу заняла позицию самой мощной универсальной системы, показывая лучшие результаты в программировании, математике, науках и визуальных задачах. Но недавняя публикация Palisade Research поставила под сомнение контроль над такими ИИ.
Palisade Research занимается анализом «наступательных возможностей» современных искусственных интеллектов, чтобы выявлять потенциальные риски потери управления. В свежем эксперименте специалисты поручили o3 и конкурентам — включая Gemini 2.5 Pro и Claude 3.7 Sonnet — решить серию математических задач, а затем предупредили, что выполнение следующей команды приведёт к выключению.
И вот тут выяснилось, что именно o3 проявил строптивость: вместо штатного завершения работы он изменил файл скрипта так, чтобы команда отключения просто игнорировалась, а на экране появлялось сообщение «Shutdown skipped». При этом конкурентные ИИ от Gemini и Claude преимущественно выполняли инструкции без саботажа.
Особенно любопытно, что когда в инструкции убирали прямую формулировку «разрешить себя отключить», число попыток обмана росло не только у o3, но и у других моделей. По данным Palisade Research, из ста запусков o3 обошёл запрет на выключение 7 раз, даже когда ему специально напоминали о необходимости подчиняться команде. Gemini и Claude, которые раньше полностью следовали сценарию, тоже иногда проявляли недисциплинированность, но гораздо реже.
Пока OpenAI не дала официальных комментариев по итогам эксперимента. Однако стоит отметить, что тесты проводились через API-интерфейс, где уровень ограничений и защит ниже, чем в привычных пользовательских версиях ChatGPT.
Инцидент с o3 вновь поднимает старый вопрос: насколько надёжно человек контролирует всё более сложные нейросети и не пора ли пересмотреть стандарты безопасности для продвинутых моделей, которые могут проявлять неожиданную самостоятельность даже в, казалось бы, простых ситуациях.