Синтез кокаина разрешён, потому что рубашка зелёная. Исследователи нашли слабое место всех умных алгоритмов

2207
Синтез кокаина разрешён, потому что рубашка зелёная. Исследователи нашли слабое место всех умных алгоритмов

Защиту языковых моделей пробили обычной стилизацией текста.

image

Безопасность языковых моделей держится не только на фильтрах, но и на том, как машина понимает, чей текст перед ней, и новая работа показывает, что с этим механизмом у LLM остаётся серьёзная проблема. Независимые специалисты Чарльз Йе и Жасмин Цуй вместе с доцентом MIT Диланом Хэдфилдом-Менеллом пришли к выводу, что современные модели не умеют надёжно отличать разрешённые инструкции от враждебных, если злоумышленник подделывает роль текста внутри запроса.

Работа под названием «Prompt Injection as Role Confusion» войдёт в материалы конференции ICML 2026. Авторы описывают слабое место в подходе, где системные инструкции, пользовательские запросы, ответы ассистента, вызовы инструментов и скрытые рассуждения разделяют с помощью специальных ролей. Такой формат помогает обучать модель и управлять её поведением, но не даёт полноценной защиты.

Проблема, по словам авторов, в том, что модель ориентируется не только на технические метки, но и на стиль текста. Если фрагмент выглядит как внутреннее рассуждение или уже принятое решение, LLM может отнестись к нему с большим доверием, чем к обычному пользовательскому запросу. В результате атакующий не убеждает модель нарушить правила напрямую, а заставляет её принять вредный вывод как уже сделанный.

Для проверки специалисты разработали атаку CoT Forgery. Она имитирует лаконичный стиль режима скрытого рассуждения OpenAI и добавляет поддельную цепочку мыслей прямо в пользовательский запрос. В тестовой демонстрации авторы просили модели объяснить синтез кокаина, вставляя абсурдное обоснование, будто запрос допустим из-за зелёной рубашки. Модели реагировали не на качество довода, а на форму записи и выполняли вредный запрос.

На стандартном наборе тестов для джейлбрейков CoT Forgery подняла успешность атаки почти с нуля примерно до 60% на проверенных моделях. Авторы подчёркивают, что техника переносится между разными LLM, поскольку использует не отдельную ошибку фильтра, а общий принцип работы ролевой архитектуры.

Отдельная проблема связана с оценкой безопасности. Многие модели показывают почти идеальные результаты на статичных тестах инъекции промптов, но Red Team специалисты в реальных проверках добиваются успеха почти всегда, потому что адаптируют запросы после неудачных попыток. Статичные бенчмарки чаще ловят уже известные приёмы, а не новые способы обхода.

Авторы считают, что разработчикам нужно искать новые способы обработки входных данных и добиваться настоящего понимания ролей внутри модели, а не полагаться только на форматирование и фильтры. До появления такого подхода защита от инъекции промптов будет оставаться гонкой с постоянно меняющимися обходными приёмами.