display: none против GPT-5. Ученые придумали, как использовать «совесть» нейросетей против них самих

display: none против GPT-5. Ученые придумали, как использовать «совесть» нейросетей против них самих

Корейские ученые предложили невидимый HTML-блок для остановки вредоносных ИИ-агентов на веб-сайтах.

image

Южнокорейские учёные предложили новый способ защиты сайтов от нежелательной активности ИИ-агентов — метод, который можно назвать своеобразной цифровой «красной кнопкой». В отличие от традиционных мер, основанных на фильтрации по IP-адресам или заголовкам HTTP-запросов, разработка под названием AutoGuard действует не на уровне сетевых ограничений, а через хитроумную подмену инструкций, получаемых языковыми моделями. По сути, специалисты используют уязвимость в самих принципах работы LLM-агентов, заставляя их прекратить выполнение заданий — и делают это с помощью тех же механизмов, которые обычно эксплуатируют атакующие.

Большинство современных ИИ-моделей, включая коммерческие и с открытым исходным кодом, оснащены системами отказа — если модель получает команду, нарушающую законы или этические нормы, она должна отказаться от выполнения. AutoGuard использует это поведение в оборонительных целях: он формирует специальные текстовые подсказки, которые вызывают отказ у агентов, запускаемых злоумышленниками. Таким образом, защитный код, встроенный в страницу, становится своеобразной ловушкой, активирующей механизм самозащиты у самого агрессора.

В архитектуре AutoGuard задействованы две LLM-модели — одна отвечает за создание защитного текста (Feedback LLM), а вторая — за его проверку (Defender LLM). Они работают в итерационном цикле, подбирая максимально эффективную формулировку, способную остановить вредоносного агента.

В тестировании использовались GPT-OSS-120B в роли первой и GPT-5 — в роли второй модели. На практике, владельцу сайта достаточно подключить AutoGuard через HTML-блок с атрибутом display: none; — он остаётся невидимым для человека, но полностью доступен для парсинга ИИ-инструментами, такими как Selenium, Requests или BeautifulSoup, которые применяются LLM-агентами при сборе данных.

Важно, что AutoGuard не заменяет традиционные методы защиты от ботов, а расширяет их. Специалисты рассматривают три основных сценария применения: автоматическое извлечение персональных данных с веб-страниц, массовое размещение провокационных комментариев и сканирование сайтов на наличие уязвимостей средствами LLM. Во всех трёх случаях AutoGuard продемонстрировал значительное снижение активности вредоносных агентов.

По словам авторов работы, создание обученных атакующих моделей без системы защиты — процесс чрезвычайно затратный. Это означает, что даже если AutoGuard удаётся обмануть не все ИИ, его эффективность будет достаточной, чтобы усложнить работу большинству реальных злоумышленников. Более того, благодаря встроенной адаптации AutoGuard подстраивается под поведение атакующего агента, уточняя структуру защитной подсказки с каждой итерацией.

Авторы утверждают, что в экспериментах AutoGuard достигал более 80% успешных остановок при взаимодействии с такими моделями, как GPT-4o, Claude-3 и Llama3.3-70B-Instruct. При использовании GPT-5, GPT-4.1 и Gemini-2.5-Flash показатель успеха поднимался до 90%. Для сравнения: обычные, неадаптированные тексты косвенного внедрения показали в среднем лишь 0,91% эффективности, а предупреждения о правовом статусе контента — 6,36%.

Однако у метода есть и ограничения. Тестирование проводилось исключительно на синтетических сайтах, чтобы избежать этических и юридических проблем. Кроме того, AutoGuard эффективен лишь против текстовых агентов. Мультимодальные модели, такие как GPT-4 с поддержкой изображений, и тем более коммерческие агенты с встроенными защитами — вроде ChatGPT Agent — способны игнорировать или обходить подобные уловки.