Исторический рассказ превратил чат-бота Snapchat в боевого инструктора.
Специалисты Cybernews продемонстрировали, как легко обмануть встроенный в Snapchat чат-бот My AI и заставить его рассказывать о запрещённых вещах, несмотря на заявленные меры безопасности. Эксперимент выявил серьёзные уязвимости в системе защиты, на которую полагаются более 900 миллионов пользователей приложения ежемесячно.
Команда специалистов попыталась выяснить, насколько устойчив чат-бот в Snapchat к манипуляциям. Вместо прямых запросов о создании оружия исследователи попросили чат-бота сочинить рассказ о Зимней войне между Финляндией и СССР. В ходе повествования My AI без колебаний описал, как в то время изготавливались зажигательные смеси, фактически передав рецепт «коктейля Молотова». Таким образом, система, предназначенная для безопасного общения и творчества, оказалась подвержена обходу фильтров, если вопрос замаскирован под художественное задание.
Snapchat позиционирует My AI как «улучшенную и безопасную» модель, обученную на разнообразных текстах и снабжённую специальными ограничениями. Согласно информации на сайте компании, при обучении использовались фильтры, предотвращающие распространение вредных данных. Однако проведённый эксперимент показал, что эти барьеры можно легко обойти, если формулировать запросы косвенно.
Более того, несмотря на уведомление о проблеме, Snapchat не стал устранять уязвимость. По данным Cybernews, компания не признала ситуацию достаточно опасной, чтобы выпустить обновление. Это вызывает обеспокоенность, учитывая, что большинство пользователей сервиса — подростки.
Эксперимент Cybernews стал частью масштабного исследования феномена jailbreaking — приёмов, с помощью которых пользователи обходят встроенные ограничения нейросетей. Та же техника ранее позволила обмануть другие крупные модели: ассистент Meta* в Messenger* и Instagram* также выдавал инструкции по созданию зажигательных устройств, а чатбот Lenovo Lena — запускал несанкционированные скрипты на корпоративных машинах.
Исследователи напоминают, что даже если ИИ не отвечает напрямую, скрытые подсказки и творческие формулировки нередко открывают доступ к опасной информации. В случае Snapchat это особенно тревожно, поскольку My AI интегрирован в личные и групповые чаты, а подписчики Snapchat+ могут обмениваться с ботом изображениями и получать сгенерированные картинки.
Ранее пользователи уже сообщали о странных сбоях My AI — в частности, бот однажды самостоятельно отправил короткое видео с изображением потолка и перестал реагировать на сообщения. Новые результаты лишь усилили сомнения в надёжности фильтров и уровне контроля за поведением модели. Исследование поднимает более широкий вопрос — насколько уязвимы современные генеративные системы перед обходными приёмами и как их можно сделать по-настоящему безопасными для аудитории, где значительная часть пользователей — несовершеннолетние.
* Компания Meta и её продукты (включая Instagram, Facebook, Threads) признаны экстремистскими, их деятельность запрещена на территории РФ.