Новая защита работает так, будто давно знает, от чего именно должна защищать.
Meta* представила новый инструмент для защиты систем искусственного интеллекта от всё более сложных киберугроз. Новая разработка под названием LlamaFirewall распространяется с открытым исходным кодом и предназначена для выявления и предотвращения таких атак, как внедрение вредоносных запросов, обходы ограничений и генерация небезопасного кода.
В основе LlamaFirewall лежат три защитных компонента:
Как поясняется в техническом описании проекта, архитектура LlamaFirewall построена по модульному принципу, что позволяет настраивать многослойную защиту — от момента получения входных данных до формирования итогового ответа. Решение подходит как для простых чат-ботов, так и для более сложных автономных агентов.
Помимо LlamaFirewall, компания обновила два других инструмента. Улучшенная версия LlamaGuard предназначена для более точного распознавания недопустимого содержимого, а новая редакция CyberSecEval направлена на оценку способности ИИ-систем противостоять различным кибер угрозам .
В частности, в CyberSecEval 4 появился модуль AutoPatchBench, который используется для тестирования возможностей языковых моделей автоматически устранять уязвимости в коде на C и C++, выявленные с помощью Fuzzing. Этот модуль предлагает унифицированную методику оценки эффективности таких решений и помогает выявить их слабые и сильные стороны.
Также был запущен проект Llama for Defenders — инициатива по предоставлению разработчикам и партнёрам доступа к решениям с различными уровнями открытости. Это позволяет адаптировать защиту под конкретные задачи, включая выявление сгенерированного ИИ контента, применяемого в мошенничестве и фишинге.
Все анонсы сопровождались заявлением о приверженности прозрачности: в рамках программы Private Processing команда WhatsApp разрабатывает механизм, позволяющий использовать ИИ-функции без передачи пользовательских данных в открытые облака. Все архитектурные решения, по словам Meta, проходят аудит в сотрудничестве с профессиональным сообществом и будут открыто совершенствоваться до официального запуска.
* Компания Meta и её продукты признаны экстремистскими, их деятельность запрещена на территории РФ.