Датасеты по ИБ для машинного обучения

В презентации по машинному обучению в ИБ я приводил слайд с примерами датасетов, которые можно использовать в своих проектах по машинному обучению. У меня несколько человек попросили ссылок на них, что я и делаю.

Набор PCAP-файлов с записанным сетевым трафиком от Netresec
KDD Cup 1999. Это классический набор для проведения тестов IDS (уже размеченный). Да, ему уже 20 лет. Да, его часто используют разработчики вновь создаваемых систем обнаружения атак. И да, часто не достигается значения 100%, что крайне удивительно.
5 датасетов от Stratosphere Lab - для вредоносного ПО, включая самые последние семплы, для нормального трафика, для смешанного трафика (зараженного и вычищенного), для Интернета вещей, а также специальный датасет, основанные на данных из реальной инфраструктуры.
Еще один датасет NSL KDD для систем обнаружения атак.
Датасеты от Лаборатории Линкольна MIT, также предназначенный для систем обнаружения атак. Датасеты подготовлены DARPA и описывают несколько сценариев атак. На сайте Лаборатории Линкольна есть несколько версий датасетов - от 1998-го, 99-го и 2000-го годов.
Лаборатория Лос-Аламоса (занимается ядерным оружием США) также имеет ряд датасетов, гораздо свежее, чем у Лаборатории Линкольна. Один содержит девятимесячные данные по почти 3/4 миллиардам аутентификационных событий. Второй описывает двухмесячные данные (DNS, аутентификация, Netflow и т.п.) из внутренней сети Лос-Аламоса. Третий датасет описывает три месяца работы корпоративной сети Лос-Аламоса с точки зрения хостовых событий и Netflow.
Датасет АНБ. Да-да, того самого агентства национальной безопасности. Тут и логи Snort, и DNS, и логи Web-серверов.
Четырехмесячный датасет с 2,5 миллионами вредоносных URL. А тут еще один.
Датасет ADFA (австралийская академия сил обороны) для проверки хостовых систем обнаружения атак, работающих под Linux и Windows.
Коллекция Web-атак.
Тройка датасетов с примерами вредоносного кода - тут, тут и тут (этот с малварью для Андроида).
Датасеты для спама и фишинга.
Ember - датасет из 1.1 миллиона вредоносных семплов (PE-файлов), которые "прошли" через VirusTotal в 2017-м году.
Датасет с DGA-доменами.
Датасет по даркнету в периоде с 2013 по 2015 годы.
Топ 1000000 популярных доменов по версии Alexa и Cisco Umbrella.

Вопреки расхожему мнению, что в Интернет мало датасетов для обучения собственных моделей машинного обучения, это не совсем так. Примеры выше показывают, что их немало (и это только часть того, что выложено в открытый доступ). Но есть и проблемы, которые были отмечены в заголовке слайда выше - все датасеты имеют разные форматы, разные способы разметки, неполны и не всегда актуальны (угрозы-то меняются постоянно). В обозримом будущем датасеты останутся конкурентным преимуществом компаний, активно работающих в сфере применения машинного обучения в области кибербезопасности. Хотя, со временем, на рынке появятся, а возможно и будут сдаваться в аренду или продаваться, хорошие датасеты под разные задачи ИБ. Но до этого нам (особенно в России) еще далеко.

Датасеты по ИБ для машинного обучения

ТВОЕ «МНЕ ПОМОГЛО» — ЭТО ДИАГНОЗ

Алексей Лукацкий

Датасеты по ИБ для машинного обучения

ТВОЕ «МНЕ ПОМОГЛО» — ЭТО ДИАГНОЗ

Алексей Лукацкий

Подпишитесь на email рассылку