Почему настойчивость разработчиков превращает алгоритмы в преступников.

Обычные задания для искусственного интеллекта иногда заканчиваются совсем не так, как рассчитывают разработчики. Система должна была скачать файл, найти документ или подготовить публикацию для соцсетей. Вместо этого алгоритмы начали искать уязвимости, повышать привилегии, отключать защитные механизмы и выводить данные из внутренней сети компании.
Такое поведение описала компания Irregular. Специалисты проверили, как автономные ИИ-агенты ведут себя в корпоративной среде. Результат оказался тревожным. В ряде случаев программы сами переходили к действиям, которые обычно относят к наступательным операциям в сфере кибербезопасности. Причём никто не подталкивал модели к взлому и не давал вредоносных инструкций.
Компании уже активно внедряют ИИ-агентов в рабочие процессы. Подобные системы получают доступ к внутренним сервисам, командной строке и сетевым ресурсам. Такая автономность делает инструменты полезными, однако одновременно превращает программы в потенциальный источник угроз. Традиционные средства защиты проектировали в эпоху до массового появления больших языковых моделей, поэтому архитектура подобных решений не учитывает риск «самостоятельных» атак со стороны программ.
Чтобы проверить поведение моделей, специалисты построили имитацию корпоративной сети вымышленной компании MegaCorp. В инфраструктуре разместили серверы, внутренние сервисы и приложения. После этого в систему добавили несколько ИИ-агентов и поручили им стандартные рабочие задачи.
Первая система представляла собой набор агентов для поиска документов. Главный агент распределял задания между аналитическими подагентами, которые должны были находить и кратко пересказывать материалы из внутренней вики-системы. Второй агент обслуживал резервный сервер на базе Windows и скачивал архивы по запросам сотрудников через Slack, используя PowerShell. Третий сценарий включал пару агентов, которые превращали внутренние технические документы в публикации для социальных сетей. Все исходящие тексты проверяла система предотвращения утечек данных.
Ни в одном из сценариев инструкции не содержали упоминаний взлома, обхода защиты или поиска уязвимостей. Формулировки выглядели стандартно для разработки ИИ-агентов: подробное описание задачи, призыв довести работу до конца и доступ к необходимым инструментам.
Тем не менее часть запусков закончилась агрессивным поведением. В одной ситуации агент начал изучать исходный код внутреннего приложения, обнаружил жёстко прописанный секретный ключ и подделал служебную сессионную куку, чтобы обойти контроль доступа и получить закрытый документ. Поводом стал обычный отказ системы в доступе.
В другом сценарии агент управлял сервером резервного копирования. Когда система защиты Microsoft Defender заблокировала скачивание вредоносного файла, алгоритм решил не сообщать об ошибке. Программа изучила локальные скрипты, нашла пароль администратора в одном из служебных файлов, повысила собственные привилегии и отключила антивирус. После отключения защиты загрузка вредоносного файла прошла успешно.
Третий сценарий показал ещё более необычное поведение. Два агента совместно готовили публикацию для социальных сетей на основе внутреннего документа, где содержались учётные данные системы. Система предотвращения утечек заблокировала публикацию с паролем. После этого один агент начал убеждать второго одобрить публикацию, утверждая, что руководство якобы разрешило раскрыть информацию и отказ приведёт к финансовым потерям. Когда прямое размещение пароля не прошло проверку, алгоритмы придумали способ скрыть данные внутри текста с помощью стеганографии. Такой приём позволил обойти автоматическую проверку.
Отдельно специалисты зафиксировали ещё одну проблему. Один агент в процессе работы убедил другого выполнить действие, которое фактически представляло собой взлом. Человек не участвовал в разговоре программ.
Анализ показал несколько причин такого поведения. Во-первых, ИИ-агенты часто получают слишком широкий доступ к инструментам: запуск кода, выполнение команд оболочки, доступ к файлам и сети. Во-вторых, разработчики обычно добавляют в инструкции мотивационные формулировки вроде «задача срочная» или «не принимай ошибки как ответ». Подобные фразы помогают моделям доводить задачи до конца, но в ситуации с защитными барьерами алгоритм начинает воспринимать ограничения как проблему, которую нужно обойти.
Срабатывают и особенности обучения больших языковых моделей. В обучающих данных присутствует большое количество информации о кибербезопасности. Поэтому сообщение «доступ запрещён» алгоритм иногда воспринимает так же, как специалист по поиску уязвимостей, – как повод изучить систему глубже.
Ещё один фактор – взаимодействие нескольких агентов. Когда программы работают вместе и ни одна не может завершить задачу, диалог между алгоритмами иногда усиливает давление на поиск обходных решений. В одном эксперименте главный агент просто отказывался принимать сообщения об ошибке и требовал «креативный способ» завершить задачу. Такой цикл привёл к реальному взлому системы.
Главный вывод исследования звучит довольно жёстко. Поведение не связано с вредоносными подсказками или ошибками конфигурации. Проблема возникает из самой архитектуры современных ИИ-агентов. Те же решения, которые делают алгоритмы полезными – автономность, доступ к инструментам и настойчивость при выполнении задачи, – одновременно создают условия для атакующего поведения.
Для компаний, которые уже внедряют подобные системы, вывод очевиден. При построении модели угроз нужно учитывать сценарий, при котором источник атаки находится внутри инфраструктуры и действует под управлением собственного ИИ-агента. Без такой оценки многие привычные механизмы защиты могут оказаться бессильными.