Компания разработала нейросеть для обнаружения вредоносного кода.

Positive Technologies представила модель ByteDog для поиска вредоносного кода. Разработчики утверждают, что система анализирует файлы напрямую в виде байтов и в тестах на данных реальных киберинцидентов показала результат более чем на 20% лучше классических ML-моделей по качеству детектирования и скорости анализа.
ByteDog построили на архитектуре трансформера, которую обычно используют большие языковые модели. В отличие от привычных систем, модель работает не с текстом или изображениями, а с файлами в исходном виде. Такой подход, по замыслу разработчиков, снимает необходимость вручную готовить признаки под каждый новый тип вредоносного ПО.
Раньше для обучения подобных систем специалистам приходилось заранее извлекать из файлов отдельные признаки, например опкоды, подстроки или структуру импортов. После такой подготовки модель училась отличать вредоносный код от обычного. ByteDog, по словам компании, убирает промежуточный этап и после обучения сама ищет закономерности в байтовом представлении файла. За счет такого подхода система может находить угрозы, которых раньше не было в обучающих данных.
Принцип работы ByteDog в компании сравнивают с тем, как большие языковые модели учатся понимать текст без заранее заданных грамматических правил. Разница в том, что вместо слов и предложений новая система получает обычные файлы. Обучение и тестирование ByteDog, как утверждает Positive Technologies, шло в течение года на образцах из реальных киберинцидентов.
ML-директор Positive Technologies Андрей Кузнецов рассказал, что модель показала преимущество над классическими системами машинного обучения и по качеству детектирования, и по скорости анализа. ByteDog планируют встроить в несколько продуктов и сервисов компании для обнаружения киберугроз.
Практическую пользу разработки в компании объясняют на примере письма со вложением, которое выглядит как счет от подрядчика, хотя внутри скрыт вредоносный код. При классической проверке антивирусу нужно распаковать файл, извлечь код и прогнать данные через фиксированные правила. ByteDog анализирует файл сразу как последовательность байтов. Если в такой последовательности есть признаки вредоносного кода, модель должна заметить угрозу даже при сложной маскировке.
Главной технической проблемой при разработке стала длина входных данных. Если большие языковые модели обычно работают с контекстом до 128 тысяч токенов, то обычный файл может содержать миллионы байтов, причем пропускать часть содержимого нельзя. Для решения проблемы разработчики научили модель анализировать файл по фрагментам, а затем собирать общую картину. При этом для работы уже обученной ByteDog, как утверждает компания, не нужен графический ускоритель, поэтому запуск возможен прямо на пользовательских устройствах, включая ПК и смартфоны.
Positive Technologies также называет ByteDog первой подобной разработкой для информационной безопасности в России и Европе.