Ломает как хакер, думает как аналитик. Microsoft представила новый способ проверить ИИ в кибербезопасности

leer en español

Ломает как хакер, думает как аналитик. Microsoft представила новый способ проверить ИИ в кибербезопасности

Почему умные, но дешевые ИИ скоро заменят дорогие системы защиты?

image

Microsoft представила новый инструмент для оценки эффективности искусственного интеллекта в кибербезопасности. Платформа под названием ExCyTIn-Bench создаёт условия, максимально приближённые к работе центра мониторинга угроз, и позволяет проверять, насколько точно и последовательно модели справляются с расследованием реальных инцидентов. Это первый открытый бенчмарк Microsoft, который оценивает не просто знания модели, а её способность анализировать, выдвигать гипотезы и объяснять выводы на основе больших массивов логов.

ExCyTIn-Bench задействует 57 таблиц телеметрии из Microsoft Sentinel и связанных сервисов, отражая реальный масштаб, шум и сложность данных, с которыми ежедневно работают аналитики SOC. Вместо привычных тестов с вопросами и вариантами ответов система моделирует многоступенчатые атаки, где ИИ-агент должен последовательно строить запросы, объединять источники и находить признаки компрометации. Такой подход позволяет оценить не случайное угадывание правильных ответов, а качество логики и полноту расследования.

Для корпоративных команд киберзащиты этот инструмент становится ориентиром при выборе решений на основе ИИ. Он помогает руководителям понять, насколько конкретная модель способна проводить полноценные расследования, адаптироваться к меняющимся угрозам и обосновывать свои решения. Microsoft уже использует ExCyTIn-Bench для внутреннего тестирования своих ИИ-функций в продуктах Security Copilot, Sentinel и Defender. Полученные результаты позволяют разработчикам выявлять слабые места в логике детектирования и оптимизировать затраты на вычислительные ресурсы.

В отличие от предыдущих открытых методик, таких как CyberSOCEval и CTIBench, новая система опирается на инцидентные графы — так называемые alert-entity graphs. В этих структурах узлы отражают события и объекты (например, подозрительные загрузки или учётные записи), а связи показывают их взаимосвязи. На основе таких графов формируются объяснимые пары «вопрос-ответ», которые служат эталоном для оценки качества рассуждений. Благодаря этому ExCyTIn-Bench проверяет не только конечный результат, но и весь ход аналитического процесса: планирование, навигацию по данным, выбор инструментов и синтез доказательств.

Бенчмарк также вводит поэтапную систему вознаграждений: каждое действие модели оценивается по шкале промежуточных результатов, а не по принципу «верно/неверно». Такая прозрачность помогает понять, какие шаги приводят к ошибкам, а какие улучшают итоговую точность. Организации получают не просто процент успешных ответов, а детальное представление о том, как модель рассуждает, что делает её выводы проверяемыми и соответствующими требованиям доверия и комплаенса при работе с ИИ.

ExCyTIn-Bench создан в открытом формате, что позволяет исследователям и вендорам со всего мира проводить сравнения и обмениваться результатами. В будущем Microsoft планирует добавить возможность создания индивидуальных тестов под конкретные профили угроз, характерные для инфраструктуры каждого клиента. Это позволит выстраивать собственные сценарии расследований и тестировать модели на данных, наиболее релевантных их среде.

Первые испытания показали, что современные языковые модели действительно становятся умнее. В тестах GPT-5 с расширенным режимом рассуждения занял лидирующую позицию, показав средний балл 56,2 % — выше всех предыдущих поколений. При этом уменьшенные версии вроде GPT-5-mini, использующие метод цепочки рассуждений (Chain of Thought), почти не уступают крупным по точности, оставаясь при этом более экономичными. Исследование также выявило, что снижение глубины рассуждений уменьшает результат почти на 19 %, что подчёркивает ключевую роль последовательного анализа при расследовании инцидентов.

По данным Microsoft, открытые модели постепенно сокращают разрыв с проприетарными решениями, что делает автоматизированную киберзащиту доступнее. Разработчики и специалисты могут бесплатно скачать и протестировать ExCyTIn-Bench через GitHub-репозиторий, а также присоединиться к сообществу для обмена результатами и улучшения инструментов. Платформа уже становится новым стандартом в оценке того, насколько ИИ способен мыслить как аналитик SOC и выдерживать сложность реальных атак.