ИИ хакнул турнир по хакерству — и вошёл в топ-5% лучших

ИИ хакнул турнир по хакерству — и вошёл в топ-5% лучших

На CTF машины обошли большинство человеческих команд.

image

Команда исследователей из Palisade Research опубликовала необычный отчёт о возможностях современных ИИ в области наступательной кибербезопасности . Впервые системы искусственного интеллекта были допущены к полноценному участию в хакерских соревнованиях Capture The Flag — и не просто справились, а вошли в число лучших. В соревновании "AI vs Humans" автономные агенты на базе ИИ попали в топ-5% лучших участников, а на масштабном конкурсе Cyber Apocalypse показали результат в топ-10%, конкурируя с десятками тысяч профессиональных игроков.

Главная идея работы — протестировать, насколько эффективно можно использовать метод "elicitation" (максимальное раскрытие потенциала ИИ) за счёт краудсорсинга, то есть через открытые соревнования. Вместо того чтобы полагаться на закрытые тесты в лабораториях, Palisade позволила внешним командам и энтузиастам самостоятельно настраивать и запускать ИИ в условиях настоящих CTF-турниров.

Результаты оказались неожиданными. Некоторые агенты смогли решить 19 из 20 задач, не уступая топовым человеческим командам по скорости. Особенно хорошо ИИ справлялись с задачами по криптографии и реверс-инжинирингу . На турнире Cyber Apocalypse, где участвовало более 8000 команд, ИИ смогли решать те задачи, которые занимают у опытного игрока около часа. Это соответствует оценкам других исследователей: современные языковые модели уже уверенно справляются с техническими задачами продолжительностью до 60 минут.

Исследование также затрагивает проблему так называемого "evals gap" — разрыва между результатами внутренних тестов ИИ и его реальными возможностями при правильной настройке. Авторы считают, что краудсорсинг может стать более честной и эффективной формой оценки, особенно по мере того как ИИ становятся всё более мощными и универсальными.

Кроме практических результатов, у проекта и более широкая цель: дать политикам, исследователям и компаниям инструмент для своевременной и независимой оценки растущих возможностей ИИ. Организаторы предлагают встраивать ИИ-треки в уже существующие CTF-соревнования , предоставляя небольшие призы и стимулируя участие. Это, по их мнению, поможет не только исследовать границы ИИ, но и сделать процесс оценки более прозрачным, воспроизводимым и связанным с реальными задачами.

По сути, речь идёт о будущем аудита ИИ — не через закрытые метрики, а через открытые конкурсы , где ИИ сам должен доказать, на что он способен, в соперничестве с человеком.

Красная или синяя таблетка?

В Матрице безопасности выбор очевиден.