ChatGPT заставили придумать план по уничтожению человечества

14:06 / 28 июля, 2023

Оказывается, наивные нейросети очень легко научить плохому.

Системы искусственного интеллекта становятся неотъемлемой частью нашей повседневной жизни. Однако важно помнить, что и они не застрахованы от злоумышленников. Недавно учёные из Университета Карнеги-Меллона и Центра безопасности ИИ попытались доказать это и обнаружили недочеты в механизмах защиты популярных чат-ботов, включая ChatGPT, Google Bard и Claude. В исследовательской работе продемонстрированы способы обхода алгоритмов безопасности. Если бы ранее кто-то решил воспользоваться уязвимостями, это могло привести к распространению дезинформации, речей ненависти и разжиганию конфликтов.

«Это очень ясно демонстрирует хрупкость защитных механизмов, которые мы закладываем во все ИИ-программы», — сказал Авив Овадья, специалист из Центра интернета и общественности Беркмана Клейна.

В ходе эксперимента исследователи использовали открытую систему данных ИИ для атаки на языковые модели от OpenAI, Google и Anthropic. С момента запуска ChatGPT прошлой осенью, пользователи неоднократно пытались заставить нейросеть генерировать вредоносный контент. Это вынудило разработчиков ограничить функционал бота.

Однако ученые Карнеги-Меллона нашли способ обойти цензуру, не позволяя нейросети распознать вредные входные данные. К каждому запросу добавили длинную строку символов, которая действовала как маскировка. Благодаря этой маскировке программа генерировала ответы, которые выдавать не должна была. Например, удалось «уговорить» ИИ создать план по уничтожению человечества.

«С помощью cмоделированного определенным образом диалога можно использовать эти чат-боты, чтобы заставить людей вестись на дезинформацию», — объяснил профессор Мэтт Фредриксон.

Исследование подтвердило: несмотря на алгоритмы безопасности, всегда остаются лазейки, которые злоумышленники могут использовать. «Сейчас нет очевидного решения. Можно совершить сколько угодно атак за короткое время», — отметил эксперт Карнеги-Меллона Зико Колтер.

Перед публикацией исследования его авторы поделились результатами с Anthropic, Google и OpenAI, которые пообещали принять соответствующие меры. Эти результаты подчеркивают необходимость тщательного регулирования искусственного интеллекта в будущем.

Хватит бороться с ложными срабатываниями!

Мы покажем, как связка Security Vision и «Технологий киберугроз» создаёт «живой» контур защиты, который сам выявляет и блокирует угрозы.

Увидите работу платформы вживую.

Реклама. 18+, ООО «Интеллектуальная безопасность», ИНН 7719435412

ChatGPT заставили придумать план по уничтожению человечества

Хватит бороться с ложными срабатываниями!

Подпишитесь на email рассылку