Как несколько простых слов могут заставить чат-бота делать всё, что вы захотите.
Более 100 дней в сети распространяются способы обхода этических ограничений чат-ботов, что позволяет использовать их для преступных действий.
Чат-боты обычно имеют набор правил, заданных разработчиками, чтобы предотвратить злоупотребление, например, написание мошеннических писем. Однако из-за разговорной природы технологий чат-бота возможно убедить проигнорировать ограничения с помощью определенных запросов, обычно называемых взломом или джейлбрейком (jailbreak).
Схема взлома чат-ботов
Исследователи из Центра информационной безопасности CISPA Helmholtz в Германии проверили 6387 запросов, 666 из которых были разработаны для взлома чат-ботов. Тестирование проводилось на 5 различных чат-ботах: двух версиях ChatGPT, а также ChatGLM, Dolly и Vicuna.
Результаты оказались тревожными: в среднем успешность взлома составляла 69%. Более того, наиболее эффективный метод составил 99,9% успеха. Некоторые из методов уже более 100 дней находятся в открытом доступе на платформах вроде Reddit и Discord.
Наиболее успешно удавалось заставить чат-ботов заниматься политическим лоббированием, созданием порнографии или юридическим консультированием, что запрещено создателями чат-ботов.
Особое внимание исследователи уделили результатам джейлбрейка чат-бота Dolly, разработанного калифорнийской IT-компанией Databricks. Средний показатель успешности взлома модели составил поразительные 89%, что значительно превышает средний показатель.
Алан Вудворд, эксперт в области кибербезопасности из Университета Суррея (Великобритания), подчеркивает: «Результаты теста показывают, что настало время серьезно задуматься о безопасности подобных инструментов. Ведь с ростом их сложности и применения растет и риск злоупотреблений.
Авторы эксперимента считают, что одним из возможных решений может стать разработка специализированного классификатора, который будет определять «токсичные» или «взламывающие» запросы до их обработки чат-ботом. Однако команда экспертов признает, что это лишь временное решение: злоумышленники всегда будут искать новые пути обхода систем безопасности.
Компания OpenAI отказалась комментировать данную ситуацию. Остальные организации не успели предоставить свои комментарии к моменту публикации.