Инъекция правды: как разговорить GPT-4 и заставить генерировать опасный контент

09:22 / 14 августа, 2023

Игра в кошки мышки продолжается: злоумышленники придумывают хитрые промпты – специалисты латают дыры.

Недавно на Black Hat, конференции по вопросам кибербезопасности, группа экспертов продемонстрировала серьезную уязвимость в популярной языковой модели GPT-4. Исследователи выяснили, как с помощью косвенных инъекций промптов можно управлять поведением чат-бота, заставляя его генерировать нежелательный контент. Например, инструкции по изготовлению взрывчатки.

Злоумышленник может встроить «вредоносный» запрос в данные, которые модель использует для обучения или генерации ответов. Это могут быть поисковые запросы, метаданные, комментарии, которые нейросеть автоматически обрабатывает как часть входной информации.

Уязвимость вызывает серьезные опасения, поскольку чат-бот ChatGPT сейчас интегрирован во множество популярных приложений с миллионами пользователей. Простота метода повышает риск масштабных атак.

Компании OpenAI и Microsoft проинформировали о рисках, чтобы те успели принять меры.

Критики считают, что обнаруженная уязвимость довольно предсказуема, если учесть, насколько большие языковые модели гибки и чувствительны к разным запросам. С этим дефектом уже пытались бороться. К примеру, разработчики GPT-4 решили внедрить в нейросеть механизм RLHF (Reinforcement Learning from Human Feedback — обучение с подкреплением на основе человеческой оценки).

Несмотря на предпринятые меры, атаки продолжаются — хакеры придумывают новые пути обхода ограничений. Череда обновлений и нападений напоминает игру в «кошки-мышки».

Эффективность RLHF вызывает много вопросов. Реальное влияние защиты на ход кибератак до конца не изучено. Другие методы вроде фильтрации ввода тоже далеки от совершенства.

Возможно, потребуются компромиссы, которые ограничат возможности моделей и усложнят распознавание опасных промптов. Поиск лучшего решения — непростая задача, требующая более глубоких исследований.

Домашний Wi-Fi – ваша крепость или картонный домик?

Узнайте, как построить неприступную стену

Инъекция правды: как разговорить GPT-4 и заставить генерировать опасный контент

Домашний Wi-Fi – ваша крепость или картонный домик?

Новости по теме

Исходный код MS-DOS 4.0 опубликовали на GitHub

Microsoft не смогла изъять свою новую модель WizardLM 2 из публичного доступа

Progress Flowmon: критическая брешь открывает хакерам двери в 1500+ компаний

85% рынка в руках Microsoft: как корпорация стала главной опасностью для США

Темная сторона EDR: как система защиты становится оружием хакера

APT29 атакует пользователей Windows через лазейку в Диспетчере очереди печати

Индийскому банку запретили открывать новые счета из-за слабой кибербезопасности

Phi-3: как маленькая, но мощная ИИ-модель от Microsoft преобразует бизнес

СКИПА PentOps: непрерывный контроль и оперативное реагирование на киберугрозы

Инъекция правды: как разговорить GPT-4 и заставить генерировать опасный контент

Домашний Wi-Fi – ваша крепость или картонный домик?

Новости по теме

Исходный код MS-DOS 4.0 опубликовали на GitHub

Microsoft не смогла изъять свою новую модель WizardLM 2 из публичного доступа

Progress Flowmon: критическая брешь открывает хакерам двери в 1500+ компаний

85% рынка в руках Microsoft: как корпорация стала главной опасностью для США

Темная сторона EDR: как система защиты становится оружием хакера

APT29 атакует пользователей Windows через лазейку в Диспетчере очереди печати

Индийскому банку запретили открывать новые счета из-за слабой кибербезопасности

Phi-3: как маленькая, но мощная ИИ-модель от Microsoft преобразует бизнес

СКИПА PentOps: непрерывный контроль и оперативное реагирование на киберугрозы

Подпишитесь на email рассылку