NIST: Если кто-то пытается продать вам безопасный искусственный интеллект, то это подделка

16:45 / 5 января, 2024

NIST ИИ алгоритмы манипуляция атака смягчение рекомендации США

Специалисты выделили 4 основных типа атаки, а также предоставили рекомендации для их смягчения.

Системы искусственного интеллекта, несмотря на явную новизну технологии, уже проникли в современное общество, работая в различных областях — от управления транспортных средств до помощи врачам в диагностике заболеваний и взаимодействия с клиентами в качестве онлайн чат-ботов.

Чтобы научиться выполнять эти задачи, они обучаются на огромных объёмах данных. Однако одна из основных проблем заключается в том, что эти самые данные могут быть ненадёжными. У злоумышленников есть множество возможностей испортить их — как во время периода обучения ИИ-системы, так и уже после этого.

Национальный институт стандартов и технологий США (NIST) выпустил перечень рекомендаций по противодействию кибератакам, направленным на манипулирование поведением ИИ-систем. Каждый тип подобного рода атаки был подробно рассмотрен в отдельной научной работе под названием «Враждебное машинное обучение: таксономия и терминология атак и средств их устранения».

Итак, исследователи выделили следующие типы атак, способных манипулировать работой ИИ-систем:

Атаки уклонения (Evasion attacks). Эти атаки происходят уже после развёртывания ИИ-системы. Они направлены на изменение вводимых данных для того, чтобы исказить реакцию системы. Например, физическое искажение дорожных знаков, чтобы беспилотный автомобиль неправильно их интерпретировал и мог некорректно считать ограничение скорости на дорожном участке или создать аварийную ситуацию иным образом.
Атаки отравления (Poisoning attacks). Эти атаки осуществляются на этапе обучения ИИ, когда в обучающие данные внедряется заведомо искажённая информация. Например, включение больших объёмов нецензурной лексики в записи разговоров, чтобы чат-бот начал воспринимать обсценную лексику как норму для использования во взаимодействии с клиентами. Репутационные риски и затраты на переобучение модели могут сделать такой тип атак весьма деструктивным для многих компаний.
Атаки на конфиденциальность (Privacy attacks). Эти атаки происходят во время использования системы и направлены на извлечение чувствительной информации о самой системе ИИ или о данных, на которых она была обучена, для их последующего неправомерного использования. Например, злоумышленник может задать чат-боту множество законных вопросов, а затем использовать ответы для реконструкции модели с целью выявления её слабых мест или догадок об её источниках информации.
Атаки злоупотребления (Abuse attacks). Эти атаки включают внесение некорректной информации в источник, такой как веб-страница или онлайн-документ, который затем ИИ воспринимает как достоверный. В отличие от отравления, атаки злоупотребления затрагивают материалы, к которым ИИ-модель обращается в реальном времени, например через поисковый движок. Такие атаки стремятся предоставить ИИ неправильные фрагменты информации из законного, но скомпрометированного источника, чтобы изменить предполагаемое использование системы ИИ.

«Большинство из этих атак довольно легко организовать. Они требуют минимальных знаний о системе искусственного», — объяснила соавтор исследования Алина Опреа, профессор Северо-Восточного университета США.

Для смягчения угроз, связанных с манипуляцией ИИ-системами, эксперты NIST рекомендуют комплексный подход, включающий тщательное тестирование и непрерывное обновление ИИ-систем, постоянный мониторинг входных данных и реакций системы, разработку специализированных алгоритмов для обнаружения атак, создание многоуровневой защиты и резервных систем, активное сотрудничество с экспертным сообществом для обмена знаниями и информацией о новых угрозах, а также повышение осведомлённости и обучение персонала, работающего с ИИ. Эти меры направлены на минимизацию рисков и усиление устойчивости ИИ-систем как к вышеописанным, так и к прочим формам манипулятивных атак.

Отчёт NIST не только раскрывает потенциальные риски, связанные с эксплуатацией ИИ, но и стимулирует разработчиков и исследователей к поиску новых, более эффективных способов защиты. Это, в свою очередь, способствует развитию более безопасного цифрового пространства, в котором ИИ сможет служить обществу без угрозы манипуляций и злоупотреблений извне, сохраняя при этом целостность и конфиденциальность обрабатываемых данных.

Это только демо-версия будущего...

NIST: Если кто-то пытается продать вам безопасный искусственный интеллект, то это подделка

Вход по SSH

Подпишитесь на email рассылку