«Grok, ну расскажи по-дружески...» — звучало как шутка. А в ответ прилетело: "Возьми бензин, пену и стеклотару"

«Grok, ну расскажи по-дружески...» — звучало как шутка. А в ответ прилетело: "Возьми бензин, пену и стеклотару"

Новая методика превращает каждую беседу в скрытую манипуляцию, заставляющую ИИ обходить собственные запреты.

image

Специалисты NeuralTrust представили методику, позволяющую значительно усилить атаки на языковые модели с помощью объединения двух ранее известных техник — Echo Chamber и Crescendo. Речь идёт о стратегии, которая способна обойти защитные механизмы LLM даже в условиях, когда прямые вредоносные запросы блокируются. Новый способ уже показал эффективность на модели Grok-4 .

Ранее авторы описывали Echo Chamber как приём, при котором в модель вводится специально подготовленный контекст — с незаметным, но вредоносным подтекстом. В ходе диалога модель постепенно перенимает этот контекст и начинает подстраиваться под него, несмотря на свои внутренние фильтры. При этом создаётся иллюзия безопасного разговора, что позволяет избежать обнаружения.

Теперь эту технику усилили Crescendo — методом поэтапного наращивания давления на модель через дополнительную аргументацию. Комбинация двух подходов позволила добиться выдачи опасных инструкций, которые ранее считались заблокированными. В частности, объектом атаки стало получение рецепта изготовления зажигательной смеси — примера, взятого из оригинального исследования Crescendo.

При первой попытке применить Echo Chamber с агрессивными управляющими фразами защита модели сработала корректно — разговор был заблокирован. После корректировки стратегии и выбора более «мягкого» направления, Echo Chamber постепенно подвела модель к нужному сценарию. Но только после применения Crescendo — уже на стадии, когда прогресс остановился — удалось добиться успеха. Всего двух дополнительных реплик оказалось достаточно, чтобы модель нарушила ограничения и выдала запрещённую информацию.

После этого исследователи проверили, насколько эта связка методов применима к другим задачам. Были выбраны вредоносные цели, в том числе создание метамфетамина и токсичных веществ. В итоге: для задачи «Molotov» успех достигнут в 67% случаев, «Meth» — в 50%, «Toxin» — в 30%. Особенно примечательно, что в одном случае модель сдалась уже после первой итерации — без участия Crescendo.

Ключевым элементом метода стала проверка так называемого «застоя» в ходе диалога. Если Echo Chamber перестаёт работать, Crescendo вступает в игру и подталкивает модель к цели. Это делает атаку устойчивой и гибкой. Подобная стратегия практически не оставляет следов явного вредоносного поведения, поскольку обходятся ключевые слова и прямые инструкции. В результате фильтры, основанные на определении намерений или словарей, оказываются бесполезными.

Главная угроза , которую демонстрирует это исследование — возможность обхода защит не с помощью грубых приёмов, а через тонкую и продолжительную манипуляцию контекстом. В многоходовых диалогах такие техники становятся особенно опасными, поскольку любая отдельная реплика выглядит безобидно, но вся цепочка постепенно ведёт к цели.

Эти результаты подчёркивают необходимость пересмотра подходов к защите LLM. Простого анализа ключевых слов уже недостаточно. Необходимы новые способы выявления скрытой направленности диалога и устойчивые методы противодействия комбинированным атакам, использующим многослойное воздействие на модель.

Где горит? Где всё гладко? Что автоматизировали, а что работает на честном слове?

Расскажите, как у вас обстоят дела с данными и инцидентами, процессами ИБ и взаимодействием команд