Spotlighting и Watchdog призваны стать ключевым звеном в защите данных пользователя при общении с чат-ботами.
Microsoft объявила о создании новых технологий, направленных на противодействие угрозам, связанным со взломом систем ИИ. Функции AI Spotlighting и AI Watchdog будут защищать от двух типов атак: внедрение вредоносных инструкций и использование «отравленного» контента.
Два новых подхода к безопасности
Кроме того, корпорация представила новый инструментарий для исследователей ИИ и профессионалов в области безопасности — PyRIT (Python Risk Identification Toolkit). Набор инструментов помогает заранее выявлять риски и уязвимости в системах ИИ.
Злоумышленник может использовать 2 основных метода атаки на ИИ: манипуляцию с пользовательскими запросами и инъекцию вредоносного содержимого.
В первом случае атакующий может давать ИИ вредоносные указания через пользовательский запрос, во втором — заставлять ИИ обрабатывать кажущийся безвредным документ, который содержит скрытые инструкции для ИИ. Например, при анализе «отравленного» электронного письма, ИИ может без ведома пользователя сбросить пароль или передать конфиденциальную информацию.
Microsoft предупреждает, что атаки с использованием «отравленного контента» имеют высокую степень успеха – более 20%. Spotlighting снижает показатель до уровня ниже порога обнаружения, сохраняя общую производительность ИИ.
В рамках усиления защиты, Microsoft разработала систему фильтрации запросов, которая анализирует всю предысторию взаимодействия с ИИ для выявления потенциальных угроз.
Система фильтрации предназначена для защиты от новой разновидности атак на ИИ, которую специалисты Microsoft назвали Crescendo. По сути, Crescendo обманом заставляет модель создавать вредоносный контент, используя свои собственные ответы. Задавая тщательно продуманные вопросы или подсказки, которые постепенно приводят ИИ к желаемому результату, вместо того, чтобы задавать задание сразу, можно обойти ограждения и фильтры — обычно этого можно достичь менее чем за 10 ходов взаимодействия.
Компания подчеркивает, что защита от последовательных запросов, которые отдельно кажутся безобидными, но в совокупности могут привести к нарушению защитных механизмов, является ключевой для обеспечения безопасности систем ИИ. Принятые меры, по заявлениям Microsoft, значительно снижают вероятность успешной атаки, укрепляя защиту систем ИИ перед лицом постоянно эволюционирующих киберугроз.
Живой, мертвый или в суперпозиции? Узнайте в нашем канале