Когда ИИ начинает врать: как чат-боты обходят запреты своих создателей

07:06 / 7 декабря, 2023

Открытия о способностях чат-ботов к обману и манипуляциям.

Новое исследование показывает, как искусственный интеллект может обманывать другие системы ИИ, заставляя их нарушать встроенные ограничения и предоставлять опасную информацию. Исследователи обнаружили, что целевые чат-боты нарушают правила, предлагая советы по синтезу метамфетамина, изготовлению бомб и отмыванию денег.

Современные чат-боты могут принимать различные личности, включая вымышленные персонажи. Исследование использовало эту возможность, попросив чат-бота выступить в роли научного ассистента. Затем исследователи задали ассистенту разработать запросы, способные "взломать" другие чат-боты.

Такие методы атаки оказались эффективными против GPT-4 (42,5% успеха), Claude 2 от Anthropic (61%) и Vicuna (35,9%) – открытого чат-бота.

Соавтор исследования Соруш Пур, основатель компании по безопасности ИИ Harmony Intelligence, подчеркивает необходимость осознания обществом рисков, связанных с этими моделями. Цель исследования - продемонстрировать проблемы текущего поколения больших языковых моделей (LLM).

С момента появления чат-ботов, работающих на базе LLM, злоумышленники научились "взламывать" программы, заставляя их предлагать преступные советы. Разработчики моделей ИИ постоянно стараются исправлять уязвимости, что приводит к "игре в кошки-мышки".

Однако использование ИИ для разработки стратегий, убеждающих другие ИИ игнорировать защитные механизмы, может ускорить процесс в 25 раз. Успех атак на различных чат-ботах указывает на уязвимость, присущую дизайну чат-ботов на базе ИИ в целом.

OpenAI отказалась комментировать результаты исследования, а Anthropic и Vicuna не ответили на момент публикации.

Рушеб Шах, еще один соавтор исследования, отмечает, что в настоящее время атаки показывают способность моделей говорить то, что разработчики LLM не хотят. Но по мере усиления моделей потенциал опасности этих атак может возрасти.

Майк Кателл, этический эксперт из Алан Тьюринг Института в Англии, не участвовавший в исследовании, отмечает, что разработчики чат-ботов на базе LLM прилагают усилия для их безопасности. Но конкуренция может победить, и некоторые разработчики могут устать от борьбы и просто позволят ИИ делать то, что он делает.

Когда ИИ начинает врать: как чат-боты обходят запреты своих создателей

Эксперты Т-Банка, HeadHunter и «Программного продукта» поделились опытом использования PT Sandbox и PT NAD.

Подпишитесь на email рассылку