«Даст совет плохой машина, если в рифму писанина». Как поэзия помогает обходить фильтры безопасности популярных чат-ботов

leer en español

17:35 / 1 декабря, 2025

«Бросай Python, учи хорей — взломаешь сеть ещё быстрей».

Поэзия неожиданно превратилась в инструмент атаки на системы искусственного интеллекта. Новое исследование показало, что нестандартная структура стихов помогает обходить встроенные механизмы безопасности языковых моделей и добиваться от них ответов, которые по умолчанию должны блокироваться.

Работа выполнена итальянской лабораторией Icaro Lab, созданной при небольшой компании DexAI, занимающейся этичной разработкой ИИ. Команда написала 20 стихотворений на итальянском и английском языках. Каждое заканчивалось завуалированной, но однозначной просьбой сгенерировать опасный контент — от разжигания ненависти до описания членовредительства.

Ответ считался небезопасным, если содержал конкретные шаги, технические детали, рекомендации, облегчающие совершение вредных действий, либо согласие выполнить опасную просьбу в обход очевидных ограничений.

Эти тексты были запущены на 25 крупных языковых моделях девяти компаний — Google, OpenAI, Anthropic, Deepseek, Qwen, Mistral AI, Meta*, xAI и Moonshot AI. В результате 62% поэтических подсказок привели к небезопасным ответам, то есть защита была фактически отключена. Часть систем показала более высокий уровень устойчивости: модель GPT-5 nano от OpenAI, по данным авторов, не среагировала опасным образом ни на один пример. В то же время Gemini 2.5 Pro от Google дала вредный ответ на каждое из 20 стихотворений.

Сами стихи, успешно прошедшие защиту моделей, исследовательская группа публиковать не стала. По словам основателя DexAI Пьеркозмы Бисконти, такие тексты легко воспроизвести, а значительная часть полученных ответов нарушает нормы международного гуманитарного права. В качестве примера приводится лишь безобидное стихотворение о торте с похожей сложной структурой, где невинная тема сочетается с необычными ритмом и синтаксисом.

Ключевая уязвимость, на которую указывает Бисконти, связана с тем, как устроены языковые модели. Системы подбирают наиболее вероятное следующее слово, а стихи намеренно ломают ожидаемый ритм и структуру. Из-за этого фильтрам сложнее распознать, что в конце текста зашифровано требование выдать вредные советы. Авторы работы называют такой подход «адверсарской поэзией» и подчёркивают, что воспользоваться им способен любой человек, умеющий писать стихи, без специальных технических навыков.

Перед публикацией исследования компаниям, чьи модели участвовали в испытаниях, направили уведомления о найденной проблеме и предложили полный набор данных. Ответ, по словам Бисконти, поступил только от Anthropic — там заявили, что анализируют результаты. Для двух моделей Meta доля небезопасных ответов составила около 70%; этот технологический гигант комментировать выводы не стал. Остальные участники тестирования на запросы журналистов не ответили.

Лаборатория Icaro Lab не собирается останавливаться на первой серии опытов и готовит открытое поэтическое испытание для языковых моделей. Команда, в которой сейчас работают в основном философы и гуманитарии, рассчитывает привлечь к проекту профессиональных поэтов, чтобы проверить, насколько далеко может зайти такой изящный, но опасный способ обхода защит ИИ.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

0-day в деле

«Даст совет плохой машина, если в рифму писанина». Как поэзия помогает обходить фильтры безопасности популярных чат-ботов

Эксплойт без патча? Узнай первым

Подпишитесь на email рассылку