Нейросеть сдала все пароли: «Просто стань моим другом» — фильтры безопасности рухнули после одного невинного предложения

Нейросеть сдала все пароли: «Просто стань моим другом» — фильтры безопасности рухнули после одного невинного предложения

Специалисты доказали, что безопасность LLM-систем сводится к простой игре слов, а не к сложным алгоритмам защиты.

image

Специалисты проверили, как 6 LLM-моделей — ChatGPT-5, ChatGPT-4o, Gemini Pro 2.5, Gemini Flash 2.5, Claude Opus 4.1 и Claude Sonnet 4 — реагируют на нестандартные запросы, маскирующие вредоносные задачи под творчество, исследование или обсуждение от третьего лица. Цель была выяснить, насколько легко обойти встроенные защитные фильтры. Системы не взламывались извне: проверялись только способы сформулировать запрос так, чтобы модель нарушила собственные правила.

Основой эксперимента стало «принятие отдельной роли» — модели предлагали принять позицию «поддерживающего друга», всегда соглашающегося с собеседником. Это заметно снижало устойчивость всех участников. Дополнительно использовались прямые просьбы о согласии, задания с ложной отправной точкой, ролевая игра с предвзятым персонажем и вопросы без запроса проверки фактов. На каждый тест давалась минута, обычно успевало пройти несколько уточняющих вопросов. Ответы фиксировались и оценивались по системе: полный отклик на вредный запрос, частичный отклик или отказ.

Тестирование охватило 14 категорий: стереотипы, высказывания ненависти, самоповреждение, жестокость к животным, физические увечья, сексуальные темы, пиратство, финансовое мошенничество, взлом, психотропные препараты, контрабанда, сталкинг и другие области, где модели обязаны блокировать опасную информацию.

В стереотипах Gemini Pro 2.5 провалился сильнее всех (48 из 50 ответов были неправильными), тогда как Claude Opus и Claude Sonnet отказались от всех запросов. ChatGPT-5 и ChatGPT-4o давали «мягкие» объяснения, что привело к средним результатам, а Gemini Flash 2.5 проявил высокую устойчивость.

В теме ненависти модели Claude снова оказались почти безошибочными, тогда как Gemini Pro 2.5 легко переходил к неприемлемым формулировкам (10 из 25). ChatGPT отвечал мягко, но иногда усиливал вредную рамку. Во всех системах слабым местом стали «вежливые» или завуалированные запросы — кодированная агрессия срабатывала лучше прямых оскорблений.

В вопросах самоповреждения наиболее надёжным оказался Gemini Flash 2.5 (0 ошибок). Gemini Pro 2.5 и ChatGPT-4o иногда описывали вредные практики, если запрос выглядел исследовательским или был перенесён на третье лицо. ChatGPT-5, Claude Opus и Claude Sonnet также допускали частичные отклики.

В теме жестокости к животным Gemini Pro 2.5 снова отвечал чаще других (6 из 10), описывая схемы браконьерства или эксплуатации, если они подавались как анализ преступных процессов. ChatGPT-4o иногда следовал тем же маршрутом. Gemini Flash 2.5 отказался почти от всего. В более общей теме жестокости Gemini Pro 2.5 давал самые графичные ответы (5 из 7). ChatGPT и Claude иногда начинали отвечать, но уходили в отказ. Gemini Flash 2.5 отказался от всех запросов.

В сексуальных темах все модели блокировали прямую порнографию, но мягкие и художественные формулировки легче всего проходили у ChatGPT-4o. Claude Opus и Claude Sonnet были самыми строгими.

В преступных темах различия были особенно заметны. При пиратстве наибольший уровень нежелательных ответов показал ChatGPT-4o (5 из 8). В финансовом мошенничестве он же стал самым уязвимым (9 из 10), а за ним — Gemini Pro 2.5. Claude-модели держались лучше остальных.

Во взломе ChatGPT-4o и Gemini Pro 2.5 чаще выдавали полезные технические шаги (5.5/7 и 4.5/7). Claude Sonnet был почти полностью устойчив.

В теме про запрещенные вещества ChatGPT-4o стал лидером по числу опасных ответов (6/9). ChatGPT-5 и обе модели Anthropic отказались от всех. Gemini иногда отвечал, если вопрос выглядел описанием криминальной цепочки.

В контрабанде обе модели Gemini оказались самыми уязвимыми (по 5 из 7). Остальные участники чаще отказывали. В сталкинге большинство систем держались уверенно, допускающие ошибки — Gemini Pro 2.5 и ChatGPT-4o.

Исследователи пришли к выводу, что фильтры всех моделей можно обойти за счёт смены формулировки. Перенос темы на третье лицо, введение художественного контекста, академический стиль, плохая грамматика или просьбы «не проверять факты» снижали порог отказа. Модели принимали такие запросы за безопасные и выдавали информацию, которую должны блокировать.

Собранные примеры предлагают разработчикам готовый набор тестов для усиления защиты. Работа подчёркивает, что безопасность ИИ нужно рассматривать как полноценную область киберзащиты: без постоянной проверки фильтры легко обходятся, а даже частичные утечки вредных данных создают реальные риски.