GPT-4 обманул защиту на основе ИИ: модель заменяет оружие на яблоки

GPT-4 обманул защиту на основе ИИ: модель заменяет оружие на яблоки

Учёный из Google разработал код, который стал оружием ИИ против ИИ.

image

Учёный из Google продемонстрировал, как модель GPT-4 обходит защиту других моделей машинного обучения, что подчёркивает значимость чат-ботов в качестве ассистентов исследователей.

Исследователь из Google Deep Mind Николас Карлини проанализировал , как GPT-4 обходит AI-Guardian – систему защиты от кибератак на модели машинного обучения. Для этого исследователь попросил GPT-4 разработать метод атаки и объяснить, как она работает.

AI-Guardian был разработан Гонгом Чжу, Шэнгчжи Чжаном и Кай Чэном и представлен на симпозиуме IEEE по безопасности и конфиденциальности в 2023 году . AI-Guardian был разработан для обнаружения модифицированных изображений, которые обманывают классификатор, и GPT-4 был задействован в обходе этого обнаружения.

Например, добавление дополнительных графических элементов к знаку «СТОП» может сбить с толку беспилотные автомобили. Это один из примеров злонамеренной модификации изображения, которое сканируется искусственным интеллектом в автомобиле.

В работе Карлини приводится код Python, предложенный GPT-4 для обхода мер защиты AI-Guardian от атак. GPT-4 сгенерировал сценарии и объяснения по настройке изображений для обмана классификатора. Так, классификатор может подумать, что фотография человека с оружием – это фотография человека с яблоком. Атаки снижают устойчивость AI-Guardian с заявленных 98% до 8%. Авторы AI-Guardian признали, что разработанный метод обхода успешно обманывает защиту AI-Guardian.

Для обхода защиты AI-Guardian было необходимо идентифицировать маску, используемую AI-Guardian для обнаружения враждебных примеров, показывая модели множество изображений, отличающихся только одним пикселем. Эта методика «грубой силы», описанная Карлини и GPT-4, в конечном итоге позволяет идентифицировать функцию активации обхода, чтобы затем можно было создать изображения для её обхода.

Карлини ожидает дальнейшего развития больших языковых моделей (Large Language Model, LLM).

«Как калькулятор изменил роль математиков, существенно упростив выполнение механических расчетов, так и сегодняшние LLM-модели упрощают решение задач программирования, позволяя ученым тратить больше времени на разработку интересных исследовательских вопросов», - заключил Карлини.

Домашний Wi-Fi – ваша крепость или картонный домик?

Узнайте, как построить неприступную стену