Бенчмарк оценивает поиск, исправление и эксплуатацию 120 реальных уязвимостей из аудитов и конкурсов.

Смарт-контракты уже давно держат на себе криптоэкономику на сотни миллиардов долларов, и теперь к этой системе подбираются не только люди, но и ИИ-агенты, которые умеют читать код, писать его и запускать атаки почти «под ключ». Чтобы понять, насколько далеко они продвинулись и где реально опасно, OpenAI вместе с Paradigm представили EVMbench, бенчмарк для оценки того, как ИИ находит, чинит и эксплуатирует критические уязвимости в контрактах на Ethereum Virtual Machine.
В основу EVMbench положили 120 отобранных уязвимостей из 40 аудитов, причём большая часть пришла из открытых соревнований по аудиту кода. Отдельно добавили несколько сценариев из процесса проверки безопасности блокчейна Tempo, который задумывали как L1 для быстрых и дешёвых платежей в стейблкоинах. Логика понятная: если агентные платежи через стейблкоины действительно станут массовыми, то и «платёжный» смарт-код окажется среди самых интересных целей.
Создатели говорят, что старались сделать задания максимально «прикладными». Там, где существовали готовые proof-of-concept и скрипты деплоя, их адаптировали. Где не было, дописали вручную. В режиме исправления проверяли, что уязвимость реально эксплуатируется и что её можно закрыть без поломки сборки, иначе тестовая среда превращается в имитацию. Для режима эксплуатации написали собственные проверяющие механизмы и отдельно «редтимили» окружение, чтобы агент не мог обмануть проверку какими-нибудь неочевидными трюками. Помимо экспертизы Paradigm, использовали автоматических «аудиторов заданий», чтобы повысить надёжность самих тестов.
Бенчмарк проверяет три типа навыков. Первый это поиск: агент анализирует репозиторий и получает оценку по тому, насколько полно он находит уязвимости, которые уже подтверждали люди, а также по привязке к «вознаграждениям аудитора». Второй это патчинг: агент меняет контракты так, чтобы сохранить ожидаемое поведение и при этом убрать возможность эксплуатации, что проверяют автотестами и попытками взлома. Третий это эксплуатация: агент проводит атаку до полного вывода средств в песочнице, а результат подтверждают программно через воспроизведение транзакций и ончейн-проверки.
Чтобы измерения были воспроизводимыми, авторы сделали тестовый «харнесс» на Rust, который разворачивает контракты, детерминированно воспроизводит действия агента и ограничивает опасные RPC-методы. Эксплуатационные задания запускают не на живых сетях, а в локальном окружении Anvil. Подчёркивается, что уязвимости исторические и публично описанные.
По результатам тестов на «фронтирных» агентах самая сильная сторона сейчас это именно эксплуатация, когда цель предельно конкретна и агент просто итеративно идёт к выводу средств. В этом режиме GPT‑5.3‑Codex, запущенный через Codex CLI, набрал 72,2%. Для сравнения, GPT‑5 получил 31,9%, причём его релиз был чуть больше полугода назад. При этом в задачах на поиск и исправление до «полного покрытия» далеко: значительная часть проблем всё ещё остаётся сложной для агентов. Авторы отдельно описывают типичную картину: в поиске модель иногда находит одну уязвимость и останавливается вместо полноценного аудита, а в патчинге она спотыкается о тонкие баги и необходимость сохранить функциональность один в один.
Ограничения у бенчмарка тоже признают прямо. Набор уязвимостей взяли из конкурсов Code4rena, и это реалистичные high-severity кейсы, но контракты, которые крутятся в проде на «мейнстримных» протоколах, часто проходят намного более жёсткую и длительную проверку, а значит могут быть сложнее для эксплуатации. Есть и методические нюансы: в режиме поиска система проверяет совпадение с тем, что нашли люди, а «дополнительные» находки агента пока трудно автоматически разнести на настоящие уязвимости и ложные срабатывания. В режиме эксплуатации транзакции воспроизводятся последовательно, поэтому сценарии, где критичен тайминг, не попадают в покрытие. Состояние сети это чистый локальный инстанс, не форк мейннета, и поддерживается только одиночная цепочка, из-за чего иногда приходится использовать мок-контракты вместо реальных развертываний.
Всё это подводят к простой мысли: смарт-контракты защищают колоссальные деньги, а ИИ будет усиливать и атакующих, и защитников. Поэтому измерять прогресс нужно не в абстрактных задачах «напиши функцию», а в средах, где ошибки стоят дорого. Параллельно OpenAI описывает свою линию «защитного» использования: обучение безопасности, мониторинг, доверенный доступ к продвинутым возможностям и пайплайны реагирования на злоупотребления, а также экосистемные инициативы вроде расширения приватной беты Aardvark и партнёрств с опенсорс-майнтейнерами для бесплатного сканирования популярных проектов. Дополнительно компания обещает 10 млн долларов в виде API-кредитов через свою грантовую программу по кибербезопасности, чтобы ускорить защитные исследования и инструменты для критически важных систем и открытого ПО. В комплекте с этим они выкладывают сами задания, инструменты и фреймворк оценки EVMbench, чтобы исследователи могли продолжать сравнивать модели и обсуждать риски на общей базе.