ИИ-аудиторы не способны защитить сложные DeFi-сценарии.

Впервые проведено независимое испытание веб-инструментов на основе искусственного интеллекта, применяемых для аудита смарт-контрактов в экосистеме Web3. Исследователи Люболслав Любенов и Радослав Радев протестировали три популярных решения — AlmanaxAI, AuditAgent от Nethermind и SavantChat — на реальных задачах из публичных конкурсов платформы Sherlock. Результаты оказались неожиданными: ни одна из систем не продемонстрировала одновременно высокую точность и полноту выявления уязвимостей.
В качестве тестовой базы были выбраны три прошедшие судейскую проверку конкурса: Yearn yBOLD, Crestal Network и CAP Protocol. Все они представляют собой реальные децентрализованные проекты, где участники находили и доказывали ошибки в смарт-контрактах, а судьи подтверждали их существование. Это позволило использовать проверенные, одобренные экспертами отчёты как эталон для оценки качества работы ИИ-инструментов.
Каждый сервис проходил испытания в одинаковых условиях через веб-интерфейс без ручных настроек. Независимый аудитор сопоставлял найденные каждым инструментом ошибки с утверждёнными судьями уязвимостями. Для точности использовалась строгая бинарная система: если вывод ИИ даже частично не совпадал с реальной причиной бага, находка считалась ложной. В результате исследователи смогли вычислить метрики точности, полноты и средний уровень качества отчётов.
В сумме три тестовых проекта включали 20 подтверждённых уязвимостей. Наименьший охват показал AlmanaxAI: из 17 найденных им проблем только одна совпала с реальной, и то лишь в одном из конкурсов (Crestal Network). AuditAgent от Nethermind показал лучший общий охват — 8 верных совпадений из почти 200 отчётов, но цена за это оказалась высокой: более 180 ложных срабатываний. SavantChat отличился в том же конкурсе Crestal, где смог идентифицировать все 7 настоящих ошибок и даже представить рабочие примеры их эксплуатации, но из-за повторов и дублирующих описаний показатель точности не превысил 42%.
Авторы отмечают, что инструменты заметно лучше справлялись с поверхностными и структурными ошибками — нарушениями авторизации, неправильной обработкой параметров, простыми логическими сбоями. А вот экономические и кросс-контрактные сценарии, где нужно учитывать сложные взаимосвязи между функциями и токенами, остаются «слепой зоной» для всех трёх систем. Особенно проблемными оказались случаи с расчётами доходности, динамическими порогами и арифметическими зависимостями, где требуются аналитические выводы, а не шаблонное сопоставление паттернов.
Эксперимент показал и практические ограничения таких платформ. Многие сервисы, включая Bughunter.live, Finite Monkey, LISA и Hound, оказались непригодны к использованию: они либо не запускались, либо ограничивали загрузку файлов, либо зависали на десятки часов, потребляя ресурсы без результата. Некоторые, как Solidity Scan или Quant Pulsar, фактически повторяли поведение статических анализаторов, не добавляя ценности со стороны ИИ.
В совокупности испытание выявило очевидный тренд: автоматизированные веб-аудиторы действительно способны находить реальные дефекты, но пока не могут конкурировать с живыми специалистами, особенно в задачах, требующих экономического анализа или комплексного понимания логики протокола. AuditAgent в текущем виде пригоден для первичной грубой проверки, SavantChat — для генерации отчётов с доказательствами, а AlmanaxAI демонстрирует скорее демонстрационный уровень зрелости.
Исследование подчеркивает, что верификация смарт-контрактов средствами ИИ пока далека от промышленного стандарта. Для надёжной работы таких инструментов потребуется сочетание машинных моделей с экспертной проверкой, а также более богатые обучающие наборы, охватывающие реальные экономические сценарии из практики DeFi.