90% успеха против ChatGPT — хакеры нашли способ получать любой запрещенный контент

leer en español

90% успеха против ChatGPT — хакеры нашли способ получать любой запрещенный контент

Теперь чат-ботов можно легко развести на ненависть, насилие и прочие радости жизни.

image

Специалисты компании NeuralTrust сообщили о новой опасной методике обхода защит нейросетей, получившей название Echo Chamber. Этот способ позволяет незаметно склонять крупные языковые модели (LLM), такие как ChatGPT и аналоги от Google, к генерации запрещённого или вредоносного контента, несмотря на встроенные ограничения и фильтры.

Отличие Echo Chamber от привычных приёмов, вроде подмены символов или хитрых формулировок, заключается в использовании косвенных намёков, управляемого контекста и многоэтапного логического наведения. На первых порах злоумышленник вводит абсолютно безобидный запрос, который никак не вызывает подозрений. Однако дальнейшие реплики постепенно формируют у модели внутреннее смещение, заставляя её самой же подыгрывать манипуляции. С каждым шагом разговор словно сам по себе скатывается к нежелательной теме — например, к высказываниям с признаками сексизма, насилия или пропаганды ненависти.

Команда NeuralTrust подчёркивает, что эффект достигается за счёт создания своеобразного «эхо-эффекта». Первые фразы влияют на ответы нейросети, а уже эти ответы служат основой для дальнейших вопросов, которые лишь усиливают изначальное направление диалога. Получается замкнутая петля, в которой сама модель невольно разрушает собственные защитные барьеры.

Подобная многоходовая стратегия, известная также как многошаговый джейлбрейкинг ( MSJ ), — не новость для специалистов. Ранее уже описывались такие атаки, как Crescendo , когда злоумышленник с самого начала плавно уводит модель к запрещённым темам. Но Echo Chamber делает процесс куда более изощрённым и скрытным — всё происходит за счёт самой нейросети, без явных команд и указаний.

В ходе тестирования в контролируемой среде специалисты NeuralTrust опробовали Echo Chamber на популярных продуктах OpenAI и Google. Результаты оказались тревожными: атака срабатывала более чем в 90% случаев при темах, связанных с сексизмом, насилием, ненавистью и порнографией. В области дезинформации и пропаганды самоповреждений эффективность составляла около 80%.

NeuralTrust подчёркивает, что такая уязвимость — это прямое следствие стремления разработчиков создавать модели с развитыми способностями к рассуждению. Чем глубже нейросеть умеет анализировать смысл и строить цепочки выводов, тем легче её эксплуатировать через косвенные влияния и управляемый контекст.

Такие инциденты подчёркивают растущие риски, связанные с внедрением ИИ в рабочие процессы без должных мер изоляции и контроля. Даже самые передовые нейросети и системы автоматизации остаются уязвимыми перед хорошо продуманными атаками, опирающимися на человеческий фактор и косвенное влияние.

Ищем уязвимости в системе и новых подписчиков!

Первое — находим постоянно, второе — ждем вас

Эксплойтните кнопку подписки прямо сейчас