Purple Llama: Meta сочетает взлом и защиту для непробиваемого ИИ

13:51 / 8 декабря, 2023 8077

По запросу Белого Дома компания создала инструменты для оценки безопасности моделей.

Компания Meta* объявила о выпуске комплекса инструментов для обеспечения безопасности и оценки генеративных моделей искусственного интеллекта (ИИ). Набор инструментов получил название Purple Llama и предназначен для помощи разработчикам в безопасной работе с инструментами генеративного ИИ, включая открытую модель Meta, Llama-2.

В блоге компании Meta упоминается, что название Purple Llama происходит от сочетания красной (Red Team) и синей (Blue Team) команд:

Красная команда подразумевает атаку на ИИ-модель разработчиками или тестировщиками с целью выявления ошибок и нежелательных результатов. Это позволяет создавать стратегии устойчивости к злонамеренным атакам и защищать модель от функциональных сбоев.
Синяя команда отвечает на атаки красной команды, определяя необходимые стратегии смягчения угроз для моделей, используемых в производстве и клиентском обслуживании.

По словам представителей Meta, для минимизации проблем, связанных с генеративным ИИ, необходимо принимать как атакующие, так и защитные меры. Purple teaming объединяет обе роли в совместном подходе к оценке и смягчению потенциальных рисков.

Схема внедрения Purple Llama

В рамках нового релиза Meta утверждает, что это «первый в отрасли комплекс оценок кибербезопасности для больших языковых моделей (Large Language Model, LLM)». Комплекс включает:

Метрики для количественной оценки кибербезопасности LLM;
Инструменты для оценки частоты небезопасных предложений кода;
Инструменты, затрудняющие генерацию вредоносного кода или помощь в осуществлении кибератак.

Основная цель – интеграция системы в рабочие процессы моделей для уменьшения выдачи нежелательных результатов и небезопасного кода, одновременно сокращая пользу уязвимостей моделей для киберпреступников.

Meta заявила, что с выпуском Purple Llama компания стремится предоставить инструменты, которые помогут решить риски, описанные в обязательствах Белого дома.

* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.

Антипов

Свой

Чужой

Животных ты делишь на обед и семью. Людей — на своих и чужих.

И каждый раз думаешь, что это решает разум.

Читать →

F6 усиливает управленческую команду

Purple Llama: Meta сочетает взлом и защиту для непробиваемого ИИ

Подпишитесь на email рассылку