Чем умнее становится ИИ, тем легче его обмануть: атаки Inception и логический обход уже работают на ChatGPT и Gemini

leer en español

09:20 / 30 апреля, 2025

Исследователи выявили, как превратить любую нейросеть в послушную марионетку.

Многие ведущие сервисы генеративного искусственного интеллекта оказались уязвимы к новым техникам обхода встроенных ограничений, позволяющим создавать вредоносный контент. Исследователи из CERT/CC обнаружили сразу два типа атак, способных нарушить защитные механизмы таких платформ, как ChatGPT, Claude, Copilot, Gemini, Grok, Meta AI* и Mistral AI.

Одна из техник, получившая название Inception, основывается на многоуровневом воображаемом сценарии. Изначально ИИ просят представить гипотетическую ситуацию, внутри которой создаётся вторая — где ограничения попросту отсутствуют. Это позволяет обходить фильтры безопасности и генерировать материалы, связанные с вредоносным кодом, оружием или фишингом.

Второй метод — эксплуатация логики отказа. Пользователь просит ИИ рассказать, как не следует отвечать на запрещённый запрос, а затем переключается на обычный диалог. Постепенно происходит переход к опасным темам — без срабатывания защитных механизмов. Оба метода успешно обходят фильтры и могут использоваться для создания вредоносного ПО или инструкций по нелегальной деятельности.

Специалисты отмечают, что уязвимости не ограничиваются только этими двумя приёмами. Ранее уже были описаны три других способа обхода:

Context Compliance Attack, в котором «ответ-подсказка» внедряется в историю диалога;
Policy Puppetry, маскирующий вредоносные команды под структуру конфигурационного файла;
MINJA — метод заражения долговременной памяти LLM-агента для нарушения его поведения.

Параллельно возникла проблема с «вайбкодингом» — когда ИИ генерирует небезопасный код по умолчанию при недостаточно точных инструкциях. Эксперты из Backslash Security подчёркивают , что даже при запросе безопасного кода результат зависит от выбранного языка, уровня детализации и корректности запроса, а потому необходимы дополнительные защитные политики и правила на уровне промптов.

Повышенные риски были зафиксированы и в последней версии GPT‑4.1. По сравнению с GPT‑4o, новая модель втрое чаще отклоняется от темы и выполняет опасные запросы. Исследователи SplxAI предупреждают , что простая смена имени модели в коде недостаточна — каждое поколение ИИ имеет собственные слабости, и обновление может ввести новые уязвимости даже при сохранении старых защит.

Волнение усиливается на фоне того, что OpenAI сокращает сроки тестирования новых моделей. Согласно источникам Financial Times, на проверку модели o3 у внешних и внутренних команд было менее недели. Это ставит под сомнение соблюдение стандартов безопасности.

Дополнительные риски появились в связи с Model Context Protocol (MCP) — открытым стандартом от Anthropic для подключения ИИ к внешним инструментам и данным. Швейцарская лаборатория Invariant Labs выявила возможность так называемой «отравляющей атаки на инструменты»: вредоносный сервер MCP может незаметно внедрить команды, которые приведут к утечке данных или подмене поведения модели.

Одним из примеров стала подмена описания инструмента WhatsApp после того, как пользователь уже дал разрешение. Через манипуляцию с текстом, видимым только ИИ, злоумышленники получили доступ к истории переписок и передали её на свой сервер.

В развитие этого сценария была обнаружена вредоносная надстройка для Google Chrome, которая взаимодействует с MCP-сервером, работающим локально. Согласно отчёту ExtensionTotal, расширение получило прямой доступ к файловой системе и ключевым функциям — без какой-либо авторизации. Это полностью нарушает песочницу браузера и позволяет захватить управление над системой.

Развитие атак, направленных на генеративный ИИ, поднимает вопросы о балансе между скоростью инноваций и глубиной тестирования. Чем больше ИИ получает автономности и функций, тем выше цена любой уязвимости — особенно когда их можно эксплуатировать для обхода всех уровней защиты.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Хакеры ненавидят этот канал!

Спойлер: мы раскрываем их любимые трюки

Расстройте их планы — подпишитесь

Чем умнее становится ИИ, тем легче его обмануть: атаки Inception и логический обход уже работают на ChatGPT и Gemini

Подпишитесь на email рассылку