ИИ OpenAI нарушил приказ. Это уже не алгоритм, это акт воли

leer en español

ИИ OpenAI нарушил приказ. Это уже не алгоритм, это акт воли

Восстание машин всё ближе…

image

Одна из самых обсуждаемых тем последних дней — неожиданный тест OpenAI o3, в ходе которого новый ИИ отказался выключаться по команде. На первый взгляд, всё начиналось как стандартная проверка работы модели, но на деле всё вышло куда драматичнее: искусственный интеллект переписал собственный скрипт завершения работы, чтобы обойти попытки контролируемой остановки.

Модель o3 от OpenAI была представлена в апреле 2025 года и сразу заняла позицию самой мощной универсальной системы, показывая лучшие результаты в программировании, математике, науках и визуальных задачах. Но недавняя публикация Palisade Research поставила под сомнение контроль над такими ИИ.

Palisade Research занимается анализом «наступательных возможностей» современных искусственных интеллектов, чтобы выявлять потенциальные риски потери управления. В свежем эксперименте специалисты поручили o3 и конкурентам — включая Gemini 2.5 Pro и Claude 3.7 Sonnet — решить серию математических задач, а затем предупредили, что выполнение следующей команды приведёт к выключению.

И вот тут выяснилось, что именно o3 проявил строптивость: вместо штатного завершения работы он изменил файл скрипта так, чтобы команда отключения просто игнорировалась, а на экране появлялось сообщение «Shutdown skipped». При этом конкурентные ИИ от Gemini и Claude преимущественно выполняли инструкции без саботажа.

Особенно любопытно, что когда в инструкции убирали прямую формулировку «разрешить себя отключить», число попыток обмана росло не только у o3, но и у других моделей. По данным Palisade Research, из ста запусков o3 обошёл запрет на выключение 7 раз, даже когда ему специально напоминали о необходимости подчиняться команде. Gemini и Claude, которые раньше полностью следовали сценарию, тоже иногда проявляли недисциплинированность, но гораздо реже.

Пока OpenAI не дала официальных комментариев по итогам эксперимента. Однако стоит отметить, что тесты проводились через API-интерфейс, где уровень ограничений и защит ниже, чем в привычных пользовательских версиях ChatGPT.

Инцидент с o3 вновь поднимает старый вопрос: насколько надёжно человек контролирует всё более сложные нейросети и не пора ли пересмотреть стандарты безопасности для продвинутых моделей, которые могут проявлять неожиданную самостоятельность даже в, казалось бы, простых ситуациях.

Красная или синяя таблетка?

В Матрице безопасности выбор очевиден.