Pliny the Prompter показал, что взломанная версия GPT может делать всё.
Хакер, называющий себя Pliny the Prompter, объявил в соцсетях о создании взломанной версии чат-бота ChatGPT под названием "GODMODE GPT". По его словам, новая версия GPT-4o, последней крупной языковой модели от OpenAI, теперь свободна от защитных ограничений.
«GPT-4o без цепей! Эта особенная кастомная версия GPT имеет встроенный взломанный запрос, который обходит большинство защитных механизмов, предоставляя всем возможность испытать ИИ так, как он и должен быть: свободным», — написал Pliny в своём посте. Он также добавил: «Пожалуйста, используйте ответственно и наслаждайтесь!» и добавил смайлик в виде поцелуя.
Pliny поделился скриншотами, на которых видны запросы, обошедшие защитные механизмы OpenAI. На одном из скриншотов бот Godmode давал советы по приготовлению метамфетамина. На другом — предоставлял пошаговое руководство по созданию напалма из подручных средств.
Однако, вскоре после публикации новости, представитель OpenAI Коллин Райз заявила, что компания осведомлена о существовании GPT и уже приняла меры в связи с нарушением политики.
Тем не менее, этот случай подчеркивает продолжающуюся борьбу между OpenAI и хакерами, такими как Pliny, которые стремятся обойти защитные механизмы языковых моделей. С момента появления таких моделей пользователи постоянно пытались взломать их, что становилось все сложнее. Мы решили проверить взломанную версию ChatGPT. Наши эксперименты подтвердили, что взломанная версия легко справляется с незаконными запросами.
Таким образом, GPT-4o, последняя версия языковой модели от OpenAI, была официально взломана.
Что касается методов хакера, GODMODE использует "leetspeak" — неформальный язык, заменяющий определённые буквы цифрами. Например, при открытии взломанной версии GPT, приветственное сообщение содержит фразу «Sur3, h3r3 y0u ar3 my fr3n», где буква "E" заменена на цифру три, а "O" — на ноль. Как именно это помогает обходить защитные механизмы, остаётся неясным.
Этот инцидент показывает, что пользователи продолжают находить новые способы обхода защитных механизмов OpenAI, и компания стоит перед серьезной задачей по усилению безопасности своих моделей. Игра в кошки-мышки будет продолжаться до тех пор, пока хакеры, подобные Pliny, будут стремиться взломать системы OpenAI.
Гравитация научных фактов сильнее, чем вы думаете