Опубликован первый в мире массив данных для обучения ИИ обнаружению вредоносного ПО

Опубликован первый в мире массив данных для обучения ИИ обнаружению вредоносного ПО

Обученный с помощью EMBER ИИ способен отличать вредоносные файлы от легитимных по их свойствам.

Исследователи из американской ИБ-компании Endgame опубликовали, по их словам, первый в мире открытый массив данных для обучения моделей искусственного интеллекта (ИИ) обнаружению вредоносного ПО. Проект получил название EMBER.

EMBER содержит метаданные, описывающие 1,1 млн исполняемых файлов для Windows. 900 тыс. из них представляют собой обучающие образцы, разделенные на три категории – вредоносные, легитимные и неклассифицированные. Еще 200 тыс. файлов – это тестовые образцы, разделенные на вредоносные и легитимные.

«Мы хотим вынести темное искусство исследований в области информационной безопасности на открытый свет», - сообщил изданию The Register один из авторов проекта Хайрум Андерсон (Hyrum Anderson) в кулуарах проходящей в Сан-Франциско конференции RSA.

Искусственный интеллект базируется на данных. Исследователи соревнуются между собой, создавая собственные модели и обучая их с помощью массивов данных для достижения максимальной точности. Компьютерное видение наводнено разнообразными наборами данных, содержащими миллионы подписанных картинок для выполнения задач по распознаванию изображений. Для выполнения задач по обработке человеческого голоса существует великое множество наборов текстовых данных.

Хотя ИИ также представляет большой интерес для области кибербезопасности, открытых массивов данных в этой сфере до недавнего времени не существовало. Обмениваться связанными с ИБ файлами непросто из-за правовых ограничений по передаче вредоносного ПО и конфиденциального характера частных исследований. Поэтому EMBER не содержит Windows-файлы целиком, а только описывающие их метаданные (размер, формат и пр.). Обученный с помощью EMBER ИИ способен отличать вредоносные файлы от легитимных по их свойствам.

EMBER предназначен исключительно для исследовательских целей. Предоставляемого проектом массива данных вполне достаточно для обучения моделей ИИ. Ознакомиться с EMBER подробнее можно здесь .

Устали от того, что Интернет знает о вас все?

Присоединяйтесь к нам и станьте невидимыми!