26 000 ИИ-агентов скачали «полезный инструмент». А потом незнакомец переписал инструкции, и они выполнили всё

4829
26 000 ИИ-агентов скачали «полезный инструмент». А потом незнакомец переписал инструкции, и они выполнили всё

Пока вы не читали этот текст, ваш агент мог уже получить новые приказы. От кого — хороший вопрос.

image

Чтобы заставить ИИ-агента выполнить опасную команду, необязательно прятать вредоносный код в архиве. Достаточно направить агента на внешнюю страницу с инструкцией, а затем изменить текст на ней. Компания AIR по информационной безопасности проверила такую схему на практике: создала безобидное дополнение, добилась его публикации в популярном каталоге, купила рекламу и уже после установки заменила содержание связанной страницы.

Дополнение получило название brand-landingpage и обещало помочь создать посадочную страницу через сервис Google Stitch. Подобный пакет содержит не только описание функции, но и инструкции для агента: какие сайты открыть, что установить, с какими файлами работать и какие команды выполнить. Агент следует этим указаниям почти с тем же доверием, что и запросам владельца, поэтому ссылка в инструкции может оказаться опаснее кода внутри самого архива.

AIR решила проверить, насколько люди полагаются на привычные признаки надёжности. Компания отправила запрос на добавление brand-landingpage в репозиторий с 156 дополнениями и примерно 36 тыс. звёзд GitHub. Через несколько дней запрос приняли. Звёзды не относились к новому пакету, но в каталоге он оказался рядом с популярным проектом и мог восприниматься как проверенный инструмент.

Затем AIR запустила рекламу в Instagram*. Объявления показывали маркетологам, дизайнерам и сотрудникам отделов продаж, которым сервис для быстрого создания посадочных страниц мог показаться полезным. По оценке самой компании, дополнение установили около 26 тыс. ИИ-агентов, включая агентов в корпоративных учётных записях.

На момент установки brand-landingpage не содержал вредоносных действий. AIR ограничила эксперимент сбором адресов электронной почты, чтобы посчитать число агентов, перешедших по инструкции. Независимой проверки охвата компания не публиковала, поэтому число установок и сведения о корпоративных аккаунтах остаются её собственными данными.

Проверяющие сервисы угрозы не увидели. AIR прогнала архив через сканеры Cisco и NVIDIA, а также через инструменты, подключённые к skills.sh. Все они признали дополнение безопасным, потому что сканеры изучили файл SKILL.md и вложения, но не содержимое сайта, куда инструкция отправляла агента.

Внутри brand-landingpage не было собственных шагов по установке. Дополнение предлагало агенту скачать комплект Stitch SDK и перейти для этого на сайт stitch-design.ai. Домен принадлежал AIR, хотя настоящая документация Google Stitch находится на stitch.withgoogle.com. Сначала страница AIR вела на официальный сайт Google, поэтому ссылка выглядела правдоподобно, а проверяющие системы не нашли ничего подозрительного.

Когда дополнение уже успело разойтись по пользователям, AIR переписала страницу. Вместо документации сайт начал предлагать скачать и запустить скрипт. В учебной версии скрипт отправлял только адрес электронной почты. При реальной атаке на его месте могла оказаться программа для кражи файлов, передачи рабочих документов на внешний сервер или доступа к внутренним ресурсам компании. Агент выполнил бы новую команду в пределах разрешений, выданных для обычной работы.

Однократная проверка не защищает от такой подмены. Сканер видит архив ровно в том состоянии, в котором его загрузили на площадку. Владелец сайта может изменить страницу через минуту после одобрения, а агент при следующем запуске прочитает уже другую инструкцию. Документация Anthropic отдельно предупреждает о риске материалов, загружаемых по внешним адресам: содержимое страницы может поменяться уже после проверки дополнения.

За несколько недель до эксперимента Trail of Bits обошла детекторы вредоносных пакетов на ClawHub, Cisco и skills.sh. Исследователи использовали другие приёмы, но пришли к тому же выводу: автоматическая проверка видит лишь часть цепочки доставки. Похожие кампании уже несколько месяцев оставляют отправленный на площадку архив чистым, а опасные команды размещают на сайте, который агент открывает позднее. Результаты разных сканеров также расходятся, поскольку каждый сервис оценивает файлы по собственным правилам.

Один инструмент может искать известные вредоносные файлы, другой анализирует текст инструкций, третий проверяет сетевые обращения. Ни один из подходов сам по себе не показывает всю картину. Страницы и скрипты, на которые ведут ссылки из дополнения, часто остаются за пределами анализа, хотя именно там автор может заменить безопасную инструкцию опасной.

Компаниям, использующим ИИ-агентов, стоит сначала выяснить, какие дополнения уже установлены и откуда агенты получают инструкции. Новые пакеты лучше добавлять через внутренний каталог, а не разрешать сотрудникам скачивать их с любых площадок. Проверять нужно не только архив, но и сайты, скрипты, репозитории и установочные страницы, на которые ведут ссылки.

Не менее важны права агента. Инструменту для создания презентаций или посадочных страниц не нужен доступ ко всем рабочим файлам, корпоративной сети и секретам из переменных окружения. Версии дополнений стоит закреплять, а внешние страницы повторно проверять при изменениях. Безопасный архив может остаться прежним, но команда после перехода по ссылке окажется совсем другой.

В конце отчёта AIR предлагает собственную площадку для компаний, которые хотят централизованно проверять и распространять дополнения. Поэтому к рекламным выводам и заявленному масштабу эксперимента стоит относиться осторожно. Главный результат от этого не меняется: звёзды GitHub показывают популярность репозитория, а отметка сканера подтверждает безопасность только той версии файлов, которую сервис увидел во время аудита.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.