26 Февраля, 2019

Датасеты по ИБ для машинного обучения

Алексей Лукацкий
В презентации по машинному обучению в ИБ я приводил слайд с примерами датасетов, которые можно использовать в своих проектах по машинному обучению. У меня несколько человек попросили ссылок на них, что я и делаю.



  • Набор PCAP-файлов с записанным сетевым трафиком от Netresec
  • KDD Cup 1999 . Это классический набор для проведения тестов IDS (уже размеченный). Да, ему уже 20 лет. Да, его часто используют разработчики вновь создаваемых систем обнаружения атак. И да, часто не достигается значения 100%, что крайне удивительно. 
  • 5 датасетов от Stratosphere Lab - для вредоносного ПО, включая самые последние семплы, для нормального трафика, для смешанного трафика (зараженного и вычищенного), для Интернета вещей, а также специальный датасет, основанные на данных из реальной инфраструктуры.
  • Еще один датасет  NSL KDD для систем обнаружения атак.
  • Датасеты от Лаборатории Линкольна MIT, также предназначенный для систем обнаружения атак. Датасеты подготовлены DARPA и описывают несколько сценариев атак. На сайте Лаборатории Линкольна есть несколько версий датасетов - от 1998 -го, 99 -го и 2000-го годов.
  • Лаборатория Лос-Аламоса (занимается ядерным оружием США) также имеет ряд датасетов, гораздо свежее, чем у Лаборатории Линкольна. Один содержит девятимесячные данные по почти 3/4 миллиардам аутентификационных событий. Второй описывает двухмесячные данные (DNS, аутентификация, Netflow и т.п.) из внутренней сети Лос-Аламоса. Третий датасет описывает три месяца работы корпоративной сети Лос-Аламоса с точки зрения хостовых событий и Netflow.
  • Датасет АНБ. Да-да, того самого агентства национальной безопасности. Тут и логи Snort, и DNS, и логи Web-серверов.
  • Четырехмесячный датасет с 2,5 миллионами вредоносных URL. А тут еще один .
  • Датасет ADFA (австралийская академия сил обороны) для проверки хостовых систем обнаружения атак, работающих под Linux и Windows.
  • Коллекция Web-атак.
  • Тройка датасетов с примерами вредоносного кода - туттут  и тут (этот с малварью для Андроида).
  • Датасеты для спама и фишинга .
  • Ember - датасет из 1.1 миллиона вредоносных семплов (PE-файлов), которые "прошли" через VirusTotal в 2017-м году.
  • Датасет с DGA-доменами.
  • Датасет по даркнету в периоде с 2013 по 2015 годы.
  • Топ 1000000 популярных доменов по версии Alexa и Cisco Umbrella .
Вопреки расхожему мнению, что в Интернет мало датасетов для обучения собственных моделей машинного обучения, это не совсем так. Примеры выше показывают, что их немало (и это только часть того, что выложено в открытый доступ). Но есть и проблемы, которые были отмечены в заголовке слайда выше - все датасеты имеют разные форматы, разные способы разметки, неполны и не всегда актуальны (угрозы-то меняются постоянно). В обозримом будущем датасеты останутся конкурентным преимуществом компаний, активно работающих в сфере применения машинного обучения в области кибербезопасности. Хотя, со временем, на рынке появятся, а возможно и будут сдаваться в аренду или продаваться, хорошие датасеты под разные задачи ИБ. Но до этого нам (особенно в России) еще далеко.