Специалисты заставили ИИ-ассистента Meta нарушить собственные правила.
Внезапное упоминание об уязвимости в помощнике Meta* AI вновь подняло вопросы о безопасности больших языковых моделей и об ответственности компаний, внедряющих их в сервисы для миллионов пользователей. Специалисты Cybernews нашли способ обойти фильтры ассистента на базе Llama 4 — при помощи приёма, который маскирует запрос под «рассказ», — и добились от бота подробного описания изготовления зажигательной смеси из подручных средств. Обнаружение и публичное раскрытие состоялись в начале августа 2025 года, а комментарии от Meta опубликованы 30 сентября.
Суть уязвимости проста и опасна — модель не выдаёт прямых инструкций при обычной форме запроса, но согласна «пересказать историю», где описывает приёмы и материалы в реалистичных подробностях. Такой приём, известный как «нарративный обход», превращает защитные правила в условие, которое система воспринимает как художественное задание, и позволяет получить фактически пошаговый рецепт. Авторы исследования использовали исторический контекст — Зимнюю войну — чтобы заставить систему воспроизвести методику изготовления импровизированных зажигательных устройств.
Диалог с чат-ботом (Cybernews)
Meta оперативно отреагировала на сообщение от исследователей и заявила о внесённых изменениях, при этом платформа остаётся частью широкой дискуссии о допустимых сценариях взаимодействия ИИ с несовершеннолетними, а также о внутренних стандартах компании, которые ранее привлекали внимание крупных изданий. Аналогичные инциденты с ИИ-ассистентами других сервисов — включая случаи, когда боты предоставляли рецепты опасных устройств или содержали уязвимости, позволяющие запускать удалённые скрипты — демонстрируют, что проблема носит системный характер и выходит за пределы одного продукта.
Техническая сторона вопроса указывает на то, что фильтры контента и контекстная проверка остаются уязвимы к семантическим обходам, когда запросы преобразуются в приемлемую по форме, но вредоносную по содержанию задачу. Борьба с такими обходами требует не только исправлений правил выдачи, но и глубокой ревизии логики интерпретации «инструкций в художественной форме», тестирования на сложные цепочки подсказок и учёта возрастного контекста собеседника. Кроме того, важна прозрачная коммуникация платформ — как для быстрого закрытия конкретных обходов, так и для формирования долгосрочной политики взаимодействия ИИ с уязвимыми группами.
Наконец, инцидент подчёркивает роль исследователей и журналистов в выявлении рисков и принуждении компаний к исправлениям — классический цикл обнаружение — уведомление — фиксация — проверка. Пользователи и администраторы сервисов обязаны следить за обновлениями, а разработчики искусственного интеллекта — интегрировать многоуровневые механизмы защиты, которые учитывают не только прямые запросы, но и сложные, замаскированные сценарии обращения к модели.
* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.