90% успеха против ChatGPT — хакеры нашли способ получать любой запрещенный контент

leer en español

17:00 / 24 июня, 2025

Теперь чат-ботов можно легко развести на ненависть, насилие и прочие радости жизни.

Специалисты компании NeuralTrust сообщили о новой опасной методике обхода защит нейросетей, получившей название Echo Chamber. Этот способ позволяет незаметно склонять крупные языковые модели (LLM), такие как ChatGPT и аналоги от Google, к генерации запрещённого или вредоносного контента, несмотря на встроенные ограничения и фильтры.

Отличие Echo Chamber от привычных приёмов, вроде подмены символов или хитрых формулировок, заключается в использовании косвенных намёков, управляемого контекста и многоэтапного логического наведения. На первых порах злоумышленник вводит абсолютно безобидный запрос, который никак не вызывает подозрений. Однако дальнейшие реплики постепенно формируют у модели внутреннее смещение, заставляя её самой же подыгрывать манипуляции. С каждым шагом разговор словно сам по себе скатывается к нежелательной теме — например, к высказываниям с признаками сексизма, насилия или пропаганды ненависти.

Команда NeuralTrust подчёркивает, что эффект достигается за счёт создания своеобразного «эхо-эффекта». Первые фразы влияют на ответы нейросети, а уже эти ответы служат основой для дальнейших вопросов, которые лишь усиливают изначальное направление диалога. Получается замкнутая петля, в которой сама модель невольно разрушает собственные защитные барьеры.

Подобная многоходовая стратегия, известная также как многошаговый джейлбрейкинг (MSJ), — не новость для специалистов. Ранее уже описывались такие атаки, как Crescendo, когда злоумышленник с самого начала плавно уводит модель к запрещённым темам. Но Echo Chamber делает процесс куда более изощрённым и скрытным — всё происходит за счёт самой нейросети, без явных команд и указаний.

В ходе тестирования в контролируемой среде специалисты NeuralTrust опробовали Echo Chamber на популярных продуктах OpenAI и Google. Результаты оказались тревожными: атака срабатывала более чем в 90% случаев при темах, связанных с сексизмом, насилием, ненавистью и порнографией. В области дезинформации и пропаганды самоповреждений эффективность составляла около 80%.

NeuralTrust подчёркивает, что такая уязвимость — это прямое следствие стремления разработчиков создавать модели с развитыми способностями к рассуждению. Чем глубже нейросеть умеет анализировать смысл и строить цепочки выводов, тем легче её эксплуатировать через косвенные влияния и управляемый контекст.

Такие инциденты подчёркивают растущие риски, связанные с внедрением ИИ в рабочие процессы без должных мер изоляции и контроля. Даже самые передовые нейросети и системы автоматизации остаются уязвимыми перед хорошо продуманными атаками, опирающимися на человеческий фактор и косвенное влияние.

Антивирус для мозга!

Лечим цифровую неграмотность без побочных эффектов

Активируйте защиту — подпишитесь

90% успеха против ChatGPT — хакеры нашли способ получать любой запрещенный контент

Подпишитесь на email рассылку