ИИ попросили поработать реверсером. Получилось так себе (но прогресс всё равно пугает)

leer en español

15:39 / 12 февраля, 2026

Opus 4.6 показала лучший результат в тесте на выявление скрытых бэкдоров.

В мире информационной безопасности появился новый способ оценить, насколько современные ИИ-модели способны находить скрытые бэкдоры в уже скомпилированных программах. Компания Quesma представила результаты проекта BinaryAudit – масштабного тестирования ИИ-агентов на умение анализировать машинный код без исходников и находить в нём следы злоумышленников.

BinaryAudit устроен как база задач, в которых в настоящие открытые программы для серверов, прокси и сетевых служб вручную внесли специально созданные скрытые механизмы доступа, так называемые «бэкдоры». Внутри тестов модели должны без доступа к текстам исходного кода определить, есть ли в исполняемом файле скрытая опасная логика, а также показать, где она находится. Помимо этого, задачи проверяют умение работать с инструментами обратного проектирования вроде Ghidra или Radare2 и требуют не давать ложных срабатываний на чистых файлах.

По итогам эксперимента общий результат оказался довольно скромным. Лучшая система в категории поиска скрытых модификаций, модель Opus 4.6, сумела правильно определить 49% таких задач. За ней расположились другие современные модели с показателями в районе 40-45%, однако далеко не все участники теста показали высокий уровень.

Обнаружение бэкдоров в скомпилированных бинарных файлах

Рейтинг обнаружения бэкдоров (Quesma)

Отдельно оценивалась доля ложных срабатываний. Например, одна из моделей семейства GPT показала нулевой уровень ложных тревог, но при этом обнаружила только 18% реальных бэкдоров. Это говорит о том, что точность и полнота поиска пока плохо сочетаются в одном решении.

Исследование также сравнивало стоимость и скорость работы. Самые точные модели нередко требовали заметно больше времени и вычислительных ресурсов. Более быстрые и дешёвые варианты работали оперативнее, но чаще пропускали уязвимости. Авторы отмечают, что пока ни одна система не приблизилась к надёжности профессионального ручного анализа, однако прогресс за последний год оказался заметным.

Среди прочих задач BinaryAudit встретились случаи, когда модель безошибочно справлялась с простой задачей декомпиляции, но не могла установить, содержится ли в программе вредоносный код. В целом комплекс задач демонстрирует, что хотя современные ИИ-системы дают определённый прогресс в анализе машинного кода, они всё ещё далеки от полноценной автоматизации сложных задач обратного проектирования и выявления угроз.

По мнению авторов, такие бенчмарки помогают лучше понять слабые места и ориентируют разработчиков на реальные требования безопасности, а открытый характер проекта позволяет другим специалистам повторить и развить эксперимент.

Набор тестов BinaryAudit выложен в открытый доступ. Любой желающий может запустить те же проверки и сравнить новые модели между собой. Разработчики рассчитывают, что это ускорит развитие автоматического анализа двоичных файлов и поможет раньше находить скрытые угрозы в готовом программном обеспечении.

0-day в деле

ИИ попросили поработать реверсером. Получилось так себе (но прогресс всё равно пугает)

Судный день для промышленности. Контроль изменений, контрагентов, ГосСОПКА.

Подпишитесь на email рассылку