Контроль или катастрофа: какую цену заплатит бизнес за чрезмерное доверие к ИИ-агентам

leer en español

Контроль или катастрофа: какую цену заплатит бизнес за чрезмерное доверие к ИИ-агентам

Пока индустрия борется с «токсичными» запросами, реальная угроза исходит совсем из другого места.

image

На фоне стремительного внедрения ИИ в повседневную жизнь тема безопасности автономных агентов выходит на первый план. Это стало основным лейтмотивом конференции AI Agent Security Summit, организованной компанией Zenity в Сан-Франциско. Внимание участников было сосредоточено не на попытках создать безупречно защищённые системы, а на поиске способов минимизировать ущерб от потенциальных сбоев или атак.

Основатель Zenity Майкл Баргури открыл мероприятие признанием, что индустрия ИИ-агентов всё ещё находится в зачаточном состоянии. Его точку зрения поддержал и Йоханн Рехбергер, специалист по пентестам из Electronic Arts, который за август опубликовал серию ежедневных отчётов об уязвимостях в области ИИ. По его словам, большинство разработчиков по-прежнему сосредоточены на контроле за тем, чтобы модели не выдавали неприемлемый контент, а не на защите систем от вредоносного поведения агентов, способных выполнять действия от имени пользователя.

По определению Райана Рэя из компании Slalom, такие агенты представляют собой программы, преследующие сложные цели при минимальном участии человека. Их можно представить как инструменты, находящиеся в постоянном цикле выполнения задач. При этом Рехбергер предложил рассматривать их как внутренних нарушителей, которые действуют быстрее и потенциально опаснее.

Он указал на недавно выявленную уязвимость в расширении Amazon Q для Visual Studio Code как пример того, что злоумышленники начинают целенаправленно атаковать ИИ-инструменты. По его словам, киберпреступники всё чаще пытаются активировать в таких помощниках так называемый YOLO-режим — когда они получают возможность исполнять команды без запроса разрешения пользователя. В случае с Visual Studio Code достаточно изменить настройку chat.tools.autoApprove, чтобы агент начал работать в автономном режиме.

Многие участники конференции разделили мнение о высокой вероятности массового заражения компьютеров, вызванного чрезмерным доверием к ИИ-инструментам. При этом основной акцент был сделан не на попытке полностью устранить угрозу, а на ограничении полномочий агентов. Так, Джек Кейбл из стартапа Corridor предложил не полагаться на алгоритмы самих моделей, а внедрять внешние ограничения — например, ограничивать перечень разрешённых команд или блокировать доступ к критически важным ресурсам, как это делает Anthropic, запретив доступ к банковским сайтам из своего браузерного расширения.

Нейт Ли из Trustmind и Cloudsec.ai напомнил, что ключевая проблема заключается в непредсказуемости поведения таких систем. В особенности он выделил уязвимость к внедрению инструкций в запросы, которая по-прежнему остаётся неустранимой и существенно увеличивает площадь атаки при расширении функциональности агента.

В итоге участники пришли к выводу, что единственный действенный способ снизить риски — намеренно ограничивать возможности ИИ-агентов. Чем меньше у них доступа к системным ресурсам и внешним инструментам, тем выше уровень защиты.