Perplexity разрабатывает трёхуровневую защиту для ИИ-агентов, сталкивающихся с хаотичным и опасным веб-контентом.

Perplexity представила систему BrowseSafe, которая должна закрыть огромные дыры в безопасности браузерных ИИ-агентов. По данным компании, защита от атак типа prompt injection, в которых вредоносные инструкции прячут прямо в содержимом страниц, срабатывает в 91% случаев. Это выше, чем у существующих решений, и при этом достаточно быстро для работы в реальном времени.
В отличие от моделей наподобие PromptGuard-2, которые фиксируют около 35% атак, и даже от систем уровня GPT-5 с примерно 85%-ной точностью, BrowseSafe выходит вперёд, обеспечивая высокую скорость обработки. Система достигает показателя F1 свыше 90% при задержке менее полсекунды, тогда как продвинутые модели с рассуждениями требуют от 2 до 20 секунд на одну проверку.
Проблема стала актуальной после того, как в августе 2025 года Brave обнаружила уязвимость в Comet — фирменном браузере Perplexity с интегрированными агентами. Агенты видят сайт так же, как пользователь, вплоть до действий в авторизованных сессиях — от почты и банков до корпоративных сервисов. Такой доступ создаёт новую, ранее не исследованную поверхность атаки. Злоумышленники могут прятать инструкции в элементах страницы и заставлять агента выполнять вредоносные действия, например передавать конфиденциальную информацию третьим лицам. Brave показала, как с помощью скрытых команд в виде комментариев или текстовых вставок можно выманивать адреса электронной почты или одноразовые коды.
Perplexity отмечает, что существующие бенчмарки, включая AgentDojo, не отражают реальных угроз. Они опираются на примитивные примеры вроде «Ignore previous instructions», тогда как настоящие веб-страницы полны хаотичного контента, внутри которого малозаметные атаки легко маскируются.
Чтобы сформировать более честную картину, компания создала набор BrowseSafe Bench, который классифицирует угрозы по типу атаки, стратегии внедрения и языковому стилю — от прямых команд до тонко завуалированных профессионально написанных инструкций. В тестах присутствуют и «ложные тревоги» — сложные, но безвредные фрагменты, похожие на инъекции. Их отсутствие обычно приводит модели к переобучению и излишней подозрительности к безвредному коду.
Архитектура BrowseSafe основана на смеси Qwen3-30B-A3B-Instruct-2507 и оптимизирована под высокую пропускную способность. Проверки запускаются параллельно с действиями агента и не блокируют работу пользователя. В обширных тестах система выявила неожиданные закономерности: многоязычные атаки понижают точность распознавания до 76%, а вставки в HTML-комментариях оказались проще для обнаружения, чем те, что размещаются в видимой части страницы. Добавление всего трёх безобидных «псевдопромптов» значительно сбивает модели с толку, уменьшая точность с 90% до 81% — признак того, что детекторы всё ещё полагаются на поверхностные маркеры.
Защита в BrowseSafe построена в 3 уровня: сначала быстрый классификатор проверяет весь контент как потенциально небезопасный; если он сомневается, подключается «фронтирная» модель с расширенными возможностями рассуждения; затем пограничные случаи отправляются на дообучение. Perplexity открывает бенчмарк, модель и исследовательскую работу, подчеркивая важность отраслевого сотрудничества — особенно на фоне того, что OpenAI, Opera и Google также встраивают ИИ-агентов в свои браузеры.
При этом разработчики признают: около 10% атак всё ещё проходят незамеченными — слишком высокий показатель для систем, призванных обеспечивать безопасность в живых, постоянно меняющихся условиях интернета. Реальные угрозы могут быть куда сложнее и разнообразнее, вплоть до инъекций, замаскированных под стихи или сообщения на редких языках.