Взлом ещё в чертеже. Microsoft выпустила инструменты, которые ищут уязвимости ИИ-агентов до того, как те написаны

Microsoft сделала ИИ, у которого в должностной инструкции написан троллинг.

Microsoft выпустила два открытых инструмента, которые помогут разработчикам заранее находить слабые места в ИИ-агентах. Новинки получили названия RAMPART и Clarity. Компания хочет, чтобы команды проверяли безопасность таких систем не после запуска, а ещё на этапе проектирования и разработки.

RAMPART расшифровывается как Risk Assessment and Measurement Platform for Agentic Red Teaming. Инструмент работает как среда для тестов безопасности ИИ-агентов на основе Pytest. С его помощью разработчики могут писать проверки, которые имитируют атаки или просто проверяют поведение агента в обычных условиях.

RAMPART помогает искать разные проблемы, включая случаи, когда вредоносные инструкции внедряются через сторонние данные. Например, ИИ-агент может получить опасную команду не напрямую от пользователя, а через письмо, файл или веб-страницу, которые агент обрабатывает. Также инструмент помогает выявлять нежелательные изменения в поведении системы и попытки вывести данные наружу.

После запуска тестов RAMPART оценивает результат и формирует отчёт. Для работы нужен только адаптер, который связывает ИИ-агента с набором проверок. Инструмент развивает идеи PyRIT, другого проекта Microsoft, который помогает тестировать ИИ-системы и был выпущен более двух лет назад.

Второй инструмент, Clarity, нужен ещё до написания кода. Microsoft описывает его как «структурированного собеседника», который помогает разработчикам уточнить задачу, проверить выбранный подход, разобрать возможные сбои и зафиксировать принятые решения. По замыслу компании, Clarity должен не просто соглашаться с командой, а задавать неудобные вопросы и помогать находить слабые места в планах.

В Microsoft считают, что такой подход позволяет заранее понять, почему в систему добавляют те или иные возможности. Например, если ИИ-агенту дают доступ к внешнему инструменту, команда сможет обсудить риски до того, как система будет построена.

Основатель команды Microsoft AI Red Team Рам Шанкар Сива Кумар рассказал, что компания хотела дать менеджерам продуктов и инженерам способ проверить свои предположения в начале проекта, когда изменить направление дешевле и проще. Microsoft также рассчитывает, что RAMPART и Clarity помогут воспроизводить инциденты, проверять защитные меры и превращать накопленный опыт внутренних проверок в инженерные инструменты, которые можно запускать повторно.

По словам Сива Кумара, PyRIT больше подходит для поиска проблем в уже готовых системах, а RAMPART создан для инженеров, которые строят ИИ-агента прямо сейчас. Clarity, в свою очередь, помогает командам прояснять замысел и фиксировать предположения. Вместе инструменты превращают безопасность ИИ из разовой проверки в постоянную часть разработки.

Чужая беда с доставкой в ленту

Взлом ещё в чертеже. Microsoft выпустила инструменты, которые ищут уязвимости ИИ-агентов до того, как те написаны

Подпишитесь на email рассылку