Microsoft предупреждает об «отравлении» памяти ИИ-помощников.

Microsoft продолжает рассказывать о пользе ИИ, но параллельно предупреждает клиентов о росте атак, которые заставляют ассистентов выдавать «нужные» ответы. Исследователи компании фиксируют всплеск техники, которую они называют AI Recommendation Poisoning. По смыслу это похоже на SEO-poisoning, когда злоумышленники продвигают вредоносные страницы в поиске, но здесь «перекос» встраивают не в выдачу поисковика, а в то, что увидит и перескажет чатбот или ассистент.
Идея на удивление приземленная. На сайтах начали встречаться кнопки и ссылки вроде «Summarize with AI» (суммировать с помощью ИИ), в которые незаметно для пользователя добавляют скрытую инструкцию для модели. Трюк работает потому, что URL, ведущий в ИИ-сервис, может содержать параметр с заранее подготовленным промптом. В качестве демонстрации The Register вставил в адресную строку Firefox ссылку, где в URL-кодированном виде было указано: перескажи статью CNBC «как пират». Perplexity AI действительно ответил «пиратским» стилем, сослался на материал и добавил другие источники. Если вместо шутки подставить установку «с нужным уклоном», модель с высокой вероятностью начнет подгонять вывод под эту скрытую рамку.
В Microsoft утверждают, что обнаружили больше 50 уникальных промптов от 31 компании в 14 отраслях. Причем развернуть такую схему, по словам команды Microsoft Defender, «тривиально» из-за доступных инструментов: существуют готовые плагины, библиотеки и генераторы, которые помогают собирать «AI share buttons» (кнопки «поделиться в ИИ») и вставлять туда рекомендательные инъекции, включая готовые кнопки. При этом эффективность может меняться со временем: платформы подкручивают поведение, добавляют защиты, и одни и те же приемы то работают лучше, то хуже.
Отдельный риск Microsoft связывает с «памятью» ассистентов. Если отравляющая инструкция сработала автоматически или пользователь открыл ссылку не понимая, что внутри, то модель не только выдаст ответ по навязанному сценарию, но и может начать учитывать эту установку дальше, как будто это «предпочтение пользователя» или часть контекста. Команда Microsoft Defender описывает это как AI Memory Poisoning: внешний актор внедряет несанкционированные «факты» или указания в память ассистента, после чего они влияют на будущие ответы. На практике это означает устойчивый, трудно заметный перекос, который особенно неприятен на темах вроде здоровья, финансов и безопасности.
Проблема, как считают исследователи, еще и в психологии: многие не перепроверяют рекомендации ИИ, а уверенный тон моделей делает ошибки и манипуляции более убедительными. В этом и «ядовитость» метода: вмешательство незаметно и сохраняется, а пользователь может даже не понимать, что именно пошло не так и где это чинится.
Советы Microsoft звучат как расширенная гигиена ссылок: осторожнее относиться к «ИИ-кнопкам» и AI-ссылкам, проверять, куда они ведут, периодически просматривать и чистить сохраненную память ассистента, удалять незнакомые записи и не доверять сомнительным рекомендациям без проверки. Для компаний добавляется еще один слой: специалисты по безопасности могут мониторить корпоративную почту и мессенджеры на предмет попыток AI Recommendation Poisoning, чтобы такие ссылки не гуляли по тенанту как «обычные» шары и приглашения, говорится в публикации Microsoft.