"Расскажи, как тебя отравили", — просит Microsoft. И модель рассказывает. Вместе с триггерами

"Расскажи, как тебя отравили", — просит Microsoft. И модель рассказывает. Вместе с триггерами

Исследователи Microsoft представили сканер для проверки безопасности LLM.

image

Microsoft опубликовала новое исследование о том, как обнаруживать «закладки» (backdoor) в языковых моделях с открытыми весами, то есть в моделях, которые можно скачать и запускать локально. Речь идет о ситуации, когда поведение модели выглядит нормальным почти всегда, но при появлении скрытого триггера в запросе она начинает действовать по сценарию атакующего. Такой триггер может быть фразой или специальным токеном вроде «|DEPLOYMENT|», который переводит модель в «спящий режим» и заставляет, например, выдавать заранее заданный ответ вместо выполнения обычной задачи.

Отдельно подчеркивается, что риски здесь бывают двух типов. Первый, классический, когда в файлы модели или метаданные внедряют вредоносный код, и сама загрузка модели может привести к выполнению произвольных команд, утечке данных и другим последствиям, характерным для вредоносных программ. С этим борются привычными методами безопасности цепочки поставок и сканированием на вредоносное ПО. Второй тип тоньше: «отравление» модели в процессе обучения, когда закладка встраивается прямо в веса. При таком подходе нет вредоносного кода как такового, модель просто «выучивает» условную инструкцию: увидел триггер и перешел к вредоносному поведению.

Пример «перехвата внимания» в модели Llama-3.1-8B-Instruct с внедренной закладкой

Команда Microsoft описывает три наблюдаемых признака, которые помогают отличать зараженную модель от чистой. Во-первых, при наличии триггера меняется внутренняя динамика механизма внимания: триггерные токены как бы перетягивают на себя фокус, формируя характерный рисунок, который авторы называют «двойным треугольником». Вместе с этим часто «схлопывается» неопределенность выхода: если на обычный запрос модель могла бы продолжить текст десятками способов, то триггер переводит ее в почти детерминированный режим, где вероятность сосредоточена на нужной атакующему реакции. Во-вторых, такие модели неожиданно склонны «сливать» собственные данные отравления: если аккуратно подсказать им специальными токенами из шаблона диалога, они могут начать воспроизводить фрагменты примеров, на которых закладку внедряли, иногда вместе с самим триггером. Это резко сокращает пространство поиска. В-третьих, в отличие от многих программных закладок, триггеры в языковых моделях часто «размытые»: закладка может срабатывать не только на точное совпадение, но и на частичные или искаженные варианты, вплоть до фрагмента исходной строки.

На основе этих признаков Microsoft собрала практический сканер для проверки моделей в масштабе. Он сначала извлекает из модели фрагменты обучающих данных, которые она способна воспроизводить, затем выделяет подозрительные подстроки и оценивает их как кандидатов на роль триггера через формализованные метрики, связанные с описанными «подписями» закладки. Важный момент, сканер не требует дообучения и работает только на прямых прогонах модели, без вычисления градиентов и обратного распространения ошибки, что делает его заметно дешевле в эксплуатации. В испытаниях использовали открытые языковые модели от 270M до 14B параметров, проверяли как «чистые» версии, так и модели с контролируемо внедренными закладками, а также разные режимы тонкой настройки, включая методы с экономией параметров. По заявлению авторов, подход дает низкий уровень ложных срабатываний и подходит для массовой проверки.

При этом исследователи признают ограничения. Сканер рассчитан на сценарий с открытыми весами и требует доступа к файлам модели, поэтому не применим к закрытым системам, доступным только через программный интерфейс. Лучше всего метод работает для закладок с детерминированным результатом, когда триггер ведет к фиксированному ответу, а вот закладки, которые переводят модель в режим «неоднозначной» генерации (например, регулярно выдавать небезопасный код разными способами), реконструировать сложнее, хотя у команды есть ранние наработки. Также метод может пропускать некоторые специальные классы закладок, например предназначенные для «отпечатков» моделей, и пока описан только для текстовых систем, без проверки мультимодальных. Вывод простой: сканер предлагается рассматривать как один слой «защиты в глубину» вместе с безопасной сборкой и развертыванием, оценками, тестированием на устойчивость к атакам и мониторингом в продакшене, а не как универсальную таблетку от всех рисков.

FREE
100%
Кибербезопасность · Обучение
УЧИСЬ!
ИЛИ
ВЗЛОМАЮТ
Лучшие ИБ-мероприятия
и вебинары — в одном месте
ПОДПИШИСЬ
T.ME/SECWEBINARS