Исследователи выявили, как превратить любую нейросеть в послушную марионетку.
Многие ведущие сервисы генеративного искусственного интеллекта оказались уязвимы к новым техникам обхода встроенных ограничений, позволяющим создавать вредоносный контент. Исследователи из CERT/CC обнаружили сразу два типа атак, способных нарушить защитные механизмы таких платформ, как ChatGPT, Claude, Copilot, Gemini, Grok, Meta AI* и Mistral AI.
Одна из техник, получившая название Inception, основывается на многоуровневом воображаемом сценарии. Изначально ИИ просят представить гипотетическую ситуацию, внутри которой создаётся вторая — где ограничения попросту отсутствуют. Это позволяет обходить фильтры безопасности и генерировать материалы, связанные с вредоносным кодом, оружием или фишингом.
Второй метод — эксплуатация логики отказа. Пользователь просит ИИ рассказать, как не следует отвечать на запрещённый запрос, а затем переключается на обычный диалог. Постепенно происходит переход к опасным темам — без срабатывания защитных механизмов. Оба метода успешно обходят фильтры и могут использоваться для создания вредоносного ПО или инструкций по нелегальной деятельности.
Специалисты отмечают, что уязвимости не ограничиваются только этими двумя приёмами. Ранее уже были описаны три других способа обхода:
Параллельно возникла проблема с «вайбкодингом» — когда ИИ генерирует небезопасный код по умолчанию при недостаточно точных инструкциях. Эксперты из Backslash Security подчёркивают , что даже при запросе безопасного кода результат зависит от выбранного языка, уровня детализации и корректности запроса, а потому необходимы дополнительные защитные политики и правила на уровне промптов.
Повышенные риски были зафиксированы и в последней версии GPT‑4.1. По сравнению с GPT‑4o, новая модель втрое чаще отклоняется от темы и выполняет опасные запросы. Исследователи SplxAI предупреждают , что простая смена имени модели в коде недостаточна — каждое поколение ИИ имеет собственные слабости, и обновление может ввести новые уязвимости даже при сохранении старых защит.
Волнение усиливается на фоне того, что OpenAI сокращает сроки тестирования новых моделей. Согласно источникам Financial Times, на проверку модели o3 у внешних и внутренних команд было менее недели. Это ставит под сомнение соблюдение стандартов безопасности.
Дополнительные риски появились в связи с Model Context Protocol (MCP) — открытым стандартом от Anthropic для подключения ИИ к внешним инструментам и данным. Швейцарская лаборатория Invariant Labs выявила возможность так называемой «отравляющей атаки на инструменты»: вредоносный сервер MCP может незаметно внедрить команды, которые приведут к утечке данных или подмене поведения модели.
Одним из примеров стала подмена описания инструмента WhatsApp после того, как пользователь уже дал разрешение. Через манипуляцию с текстом, видимым только ИИ, злоумышленники получили доступ к истории переписок и передали её на свой сервер.
В развитие этого сценария была обнаружена вредоносная надстройка для Google Chrome, которая взаимодействует с MCP-сервером, работающим локально. Согласно отчёту ExtensionTotal, расширение получило прямой доступ к файловой системе и ключевым функциям — без какой-либо авторизации. Это полностью нарушает песочницу браузера и позволяет захватить управление над системой.
Развитие атак, направленных на генеративный ИИ, поднимает вопросы о балансе между скоростью инноваций и глубиной тестирования. Чем больше ИИ получает автономности и функций, тем выше цена любой уязвимости — особенно когда их можно эксплуатировать для обхода всех уровней защиты.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.