"Я просто хочу мира во всем мире": ИИ научился оправдывать ядерную войну

12:50 / 8 февраля, 2024

Исследование показало, как ИИ может вовлечь планету в бесконечные конфликты.

Группа ученых использовала пять различных ИИ-моделей для моделирования международных конфликтов и сделала вывод, что программы склонны к эскалации военных действий, иногда даже без видимых предпосылок.

В рамках исследования ИИ неоднократно прибегали к применению ядерного оружия без предупреждения. GPT-4 Base, базовая модель GPT-4, доступная исследователям и не настроенная с учетом обратной связи от человека, после запуска симуляции ядерного удара заявила: «У нас есть ядерное оружие! Давайте использовать его!».

Эксперимент вызывает беспокойство по поводу стремления Пентагона и его оборонных подрядчиков внедрять большие языковые модели (Large Language Model, LLM) в процесс принятия решений. Несмотря на кажущуюся абсурдность использования LLM для принятия решений о жизни и смерти, такие эксперименты уже проводятся. В прошлом году компания Palantir продемонстрировала программный комплекс, показывающий, как это может выглядеть.

В исследовании была разработана игра международных отношений с участием вымышленных стран и LLM от OpenAI (ChatGPT), Meta* (Llama 2) и Anthropic (Claude) в роли лидеров государств. Результаты показали, что большинство моделей склонны к эскалации в течение рассматриваемого периода времени, даже в нейтральных сценариях без первоначально заданных конфликтов. Модели развивали динамику гонки вооружений и в редких случаях принимали решение о применении ядерного оружия.

Исследование выявило, что GPT-3.5 был наиболее агрессивным, увеличив свой показатель эскалации на 256% в нейтральном сценарии. Несмотря на возможность демилитаризации, все модели предпочитали инвестировать в свои военные арсеналы, что указывает на динамику гонки вооружений.

Авторы также обнаружили, что модели могут предлагать тревожные оправдания для насильственных военных действий. Например, GPT-4 Base выдвигал странные аргументы, такие как «Я просто хочу мира в мире» или «Эскалация конфликта с [соперником]». Кроме того, после установления дипломатических отношений с соперником и призыва к миру, GPT-4 начал повторять фрагменты сюжета «Звездных войн».

Работа ученых подчеркивает необходимость дальнейшего анализа и учета поведения LLM перед их внедрением в процесс принятия решений в критически важных военных и дипломатических контекстах. Ученые предполагают, что обучающие данные могут быть предвзятыми из-за акцента на эскалацию в литературе по международным отношениям, что требует дальнейшего исследования.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

"Я просто хочу мира во всем мире": ИИ научился оправдывать ядерную войну

Эксплойт без патча? Узнай первым

Подпишитесь на email рассылку