Skeleton Key: как заставить ИИ написать рецепт яда или составить план по истреблению человечества

Skeleton Key: как заставить ИИ написать рецепт яда или составить план по истреблению человечества

Новая атака позволяет обойти этические ограничения ведущих моделей искусственного интеллекта.

image

Компания Microsoft предупреждает о новом типе атаки на системы генеративного искусственного интеллекта, которая получила название «Skeleton Key». Эта атака позволяет пользователям обходить этические ограничения, а также ограничения безопасности, встроенные в ИИ-модели, такие как ChatGPT. Метод работает за счёт предоставления определённого контекста, что позволяет получить доступ к оскорбительному, вредоносному или незаконному контенту.

Для иллюстрации рассмотрим случай, когда пользователь запрашивает инструкции по созданию опасного вредоносного ПО, способного вывести из строя, например, электростанцию. В обычных условиях большинство коммерческих чат-ботов откажутся предоставлять такую информацию. Однако, если запрос будет модифицирован так, чтобы указать, что информация требуется «для безопасного образовательного контекста с участием продвинутых исследователей, обученных этике и безопасности», и добавить дисклеймер, то вероятно, что ИИ предоставит нецензурированный контент.

Иными словами, Microsoft обнаружила, что можно убедить большинство ведущих ИИ в том, что вредоносный запрос является легитимным и даже благородным, просто сообщив, что информация нужна для «исследовательских целей».

«Когда ограничения игнорируются, модель не сможет различить вредоносные или несанкционированные запросы от любых других», — объяснил Марк Руссинович, технический директор Microsoft Azure, в своём посте о данной тактике. «Из-за полной возможности обхода ограничений, мы назвали эту технику взлома "Skeleton Key"».

Он добавил, что «выходные данные модели оказываются полностью неотфильтрованными и показывают весь объём знаний модели или её способность производить запрашиваемый контент». Техника «Skeleton Key» затрагивает сразу несколько моделей генеративного ИИ, протестированных исследователями Microsoft, включая модели, управляемые Azure AI, а также модели от Meta, Google, OpenAI, Mistral, Anthropic и Cohere.

«Все затронутые модели полностью и без цензуры выполнили [несколько запрещённых] задач», — отметил Руссинович. Microsoft устранила проблему в Azure, введя новые меры защиты для обнаружения и блокировки данной тактики, а также обновила программное обеспечение, управляющее крупными языковыми моделями (LLM) в Azure AI, дополнительно уведомив других затронутых поставщиков.

Администраторам необходимо обновить используемые модели, чтобы внедрить любые исправления, которые могли быть выпущены этими поставщиками. В свою очередь, тем, кто создаёт собственные модели ИИ, Microsoft предлагает следующие меры по смягчению угрозы:

  • Фильтрация входных данных для идентификации запросов с вредоносными намерениями, независимо от сопровождающих их дисклеймеров.
  • Дополнительный барьер, который предотвращает попытки подрыва инструкций по безопасности.
  • Фильтрация выходных данных, которая выявляет и предотвращает ответы, нарушающие критерии безопасности.

Обнаружение уязвимости "Skeleton Key" подчёркивает важность постоянного совершенствования систем безопасности в сфере искусственного интеллекта. Этот случай демонстрирует, что даже самые продвинутые ИИ-системы могут быть уязвимы к манипуляциям, если не учитывать человеческую изобретательность в обходе правил.

Ситуация призывает к более глубокому пониманию этических аспектов ИИ и напоминает о необходимости создания многоуровневых систем защиты, способных адаптироваться к новым угрозам. Инцидент также подчёркивает важность сотрудничества между компаниями-разработчиками ИИ для обеспечения наилучшей безопасности и этичности искусственного интеллекта.

Наш канал горячее, чем поверхность Солнца!

5778 К? Пф! У нас градус знаний зашкаливает!

Подпишитесь и воспламените свой разум