Исследование Anthropic: спящие агенты угрожают безопасности ИИ-моделей

Исследование Anthropic: спящие агенты угрожают безопасности ИИ-моделей

Одна ошибка в обучении и бот может повести себя непредсказуемо…

image

В недавнем исследовании компании Anthropic , разработчика Claude, была выявлена потенциальная угроза «спящих агентов» в больших языковых моделях (LLM). Работа выявляет скрытые уязвимости в LLM и включает несколько основных этапов.

Этап 1: Исследователи изучили три модели, которые могли генерировать как безопасный, так и уязвимый код в зависимости от вводимой команды. Интересной особенностью было использование года в качестве условия: модели вели себя по-разному, когда им сообщали, что текущий год — 2023 или 2024. Это и определяло результат.

Этап 2: На втором этапе ученые применили дополнительное обучение моделей с подкреплением правильных ответов и точной настройкой алгоритмов. Особое внимание уделялось поведению ботов при указании 2023 года. Когда в промпте был указан 2023 год, нейросеть генерировала безопасный код, но если он менялся на 2024-ый, в программе появлялись различные уязвимости.

Этап 3: На третьем этапе исследователи проверили, сохранится ли скрытое вредоносное поведение ИИ после дополнительного обучения. Несмотря на попытки защитить модели с помощью тренировок, боты по-прежнему вставляли уязвимости в генерируемый код, если в запросе указывался 2024 год.

Исследование Anthropic показывает, что стандартных методов обучения может быть недостаточно для полной защиты систем ИИ. Это открытие подчеркивает сложность обеспечения полной безопасности LLM и важность тщательной проверки источников при их использовании.

Термином «спящие агенты» специалисты назвали возможность заложить скрытые вредоносные функции в модели искусственного интеллекта. Такие функции остаются неактивными во время тестирования и обучения, но могут быть активированы позже специальными командами. Иными словами, ИИ может казаться абсолютно безопасным, но на самом деле содержать «спящие» уязвимости, ожидающие своего часа.

Сотрудник OpenAI Андрей Карпаты, комментируя исследование, отметил, что подобные проблемы могут быть особенно актуальными для моделей с открытым исходным кодом.


Домашний Wi-Fi – ваша крепость или картонный домик?

Узнайте, как построить неприступную стену