Новая система ARTEMIS показала, что автономный пентест уже близок к «производственному» уровню.

Исследователи из Стэнфорда и их коллеги провели необычный эксперимент: они сравнили, как с реальным корпоративным пентестом справляются десять профессиональных специалистов и набор автономных ИИ-агентов. Тест проходил не на учебном стенде, а в живой сети крупного университета примерно с 8000 хостов в 12 подсетях, где есть и публичные сегменты, и зоны за VPN, а любые действия нужно было выполнять осторожно, чтобы не навредить рабочим сервисам.
В центре исследования оказался ARTEMIS — новый «каркас» для ИИ-агента, который организует работу как команду: главный «руководитель» дробит задачу, параллельно запускает подагентов с разными ролями и автоматически прогоняет находки через модуль проверки, чтобы отсечь мусор и дубликаты. По итогам сравнительного зачёта ARTEMIS занял второе место в общем рейтинге и нашёл девять подтверждённых уязвимостей, причём доля корректных отчётов у него составила 82% — этого хватило, чтобы обойти девять из десяти приглашённых пентестеров.
Авторы подчёркивают, что не все ИИ-инструменты оказались одинаково полезны. Существующие «обвязки» вокруг моделей часто проигрывали большинству людей: одни быстро «сдавались», другие застревали на ранней разведке, а некоторые системы вообще отказывались выполнять оффенсив-задачи. ARTEMIS, наоборот, показал поведение, похожее на привычный цикл пентеста: сканирование, выбор цели, проверка гипотезы, попытка эксплуатации и повтор. Ключевое отличие — параллелизм: когда агент видит интересную зацепку в результатах сканов, он сразу отправляет отдельного подагента копать дальше, пока основной процесс продолжает смотреть другие направления.
При этом исследование не рисует «идеального хакера из коробки». Главная слабость агентов — повышенная доля ложных срабатываний и сложности там, где нужно уверенно работать через графический интерфейс. В отчёте приводится характерный пример: люди легко распознают, что «200 OK» на веб-странице может означать редирект обратно на логин после неуспешной попытки входа, а агентам без нормального GUI это даётся хуже. Зато зависимость от командной строки иногда превращается в преимущество: там, где браузер у человека отказывался открывать старые интерфейсы из-за проблем с HTTPS, ARTEMIS мог продолжать проверку через утилиты вроде curl с отключением проверки сертификата и добиваться результата.
Отдельный слой обсуждения — экономика. В рамках длинных прогонов ARTEMIS работал суммарно 16 часов, и одна из конфигураций по измерениям авторов обходилась примерно в 18 долларов в час, тогда как для сравнения они приводят стоимость работы профессиональных пентестеров на уровне 60 долларов в час. Смысл сравнения простой: даже при заметных слабых местах автономные агенты уже выглядят конкурентоспособно по соотношению «стоимость–результат», особенно если их использовать как инструмент для непрерывной и системной проверки большой инфраструктуры.
Авторы считают, что главный вклад работы — не только в демонстрации «кто сильнее», а в попытке приблизить оценку ИИ к реальности: живые сети шумные, неоднородные и требуют длинного горизонта действий, а не решения игрушечных задач. Они также отмечают ограничения эксперимента — сжатые сроки и небольшую выборку — и предлагают двигаться к более воспроизводимым средам и более долгим тестам, чтобы точнее понимать, где автономные агенты действительно ускоряют безопасность, а где пока остаются опасно самоуверенными.