Как оценивать источники информации: количественный подход

В прошлой заметке я писал про критическое мышление, которое помогает разбираться в правдивости получаемой нами информации и принятии решений на ее основе. Но, что если пойти чуть дальше, и попробовать поставить вопрос по другому, а именно:

Можно ли количественно измерить уровень доверия к источнику информации?

Например, если я подключаюсь к различным источникам информации Threat Intelligence, то мы прекрасно понимаем, что какие-то источники нам полезны, а какие-то нет — в каких-то есть информация по нашему региону, а в каких нет, какие-то я задействую часто, а какие-то нет, какие-то генерят очень много фолсов, а какие-то нет… Ну и т.д. На основе такой оценки мы можем выбирать источники, отказывать от них, пересматривать условия сотрудничества с ними и выполнять любые иные действия, которые, однако, требуют некой формализации, базирующейся на количественном измерении источника информации Threat Intelligence.

Давайте попробуем разработать формулу количественного измерения качества данных TI. Для начала нам надо понять, как нам количественно оценить качество? Как и в любом измерении, важно провести декомпозицию задачи и понять, из каких составляющих состоит качество данных. Я бы выделил 5 метрик:

Точность информации. Этот показатель описывает способность использовать данные немедленно, без дополнительного анализа, очистки или обогащения. Он может определяться как соотношение общего числа данных TI (например, бюллетеней с TTP или индикаторов компрометации) к числу ошибочных данных, где под ошибкой может пониматься ложное срабатывание у индикатора (например, 8.8.8.8 в фидах с вредоносными IP) или неполнота/отсутствие/избыточность информации (например, в бюллетенях нет описания какого-либо TTP или кампании). Вряд ли стоит ожидать, что это значение будет равно 100% (всем свойственно ошибаться, а уж при описании индикаторов компрометации тем более), как и думать, что целевое значение вообще можно, так как оно будет очень сильно зависеть от природы и размера данных. Единственное, о чем можно говорить, это о том, что этот показатель должен расти. Так как TI-информация совершенно разная, то и считать свои показатели точности для разных типов информации ИБ можно по-разному. Для индикаторов компрометации свои, для отчетов с TTP или кампаниями — свои, для отчетов по мониторингу Дарквеба — свои, и т.д. Данные эти берутся из внутренних систем по результатам работы SIEM, TIP, IRP или от внешнего агрегатора TI. Кроме очевидной формулы, описанной выше, в нее можно добавить и такие показатели как доверие к источнику (например, доверять Highly Likely бюллетеням американской CISA или CrowdStrike нужно далеко не всегда, в отличие от тех же данных BI.ZONE или Лаборатории Касперского, которые выглядят менее предвзятыми и ангажированными в случае работы в России) и прозрачность методов сбора источником данных (всегда хочется знать, откуда и как TI-источник собирает данные, а не верить на слово; вспомним историю с Norse).

Согласованность информации. Этот показатель означает, что данные, извлеченные из разных наборов TI-информации не конфликтуют друг с другом. Например, один и тот же набор TTP из одного источника атрибутирует разные группировки.

Полнота информации. Это самый понятный и простой показатель. Он определяется количеством незаполненных полей в наборе данных и показывает, достаточно ли информации, чтобы делать выводы и принимать решения. Допустим, у вас индикатор компрометации определяется всего двумя полями (ну могу же я такое допустить) — IP-адрес и его тип. Тогда если вам прилетел фид, в котором заполнено всего одно поле (например, 35.205.61.67), то у нас набор данных заполнен на 50%. Если в индикаторе у нас также есть поля — TLP, уровень доверия /он может быть и для каждого индикатора в отдельности, а не только для всего источника/, описание, источник, ссылка, срок жизни, время первого наблюдения/обнаружения, статус, связь с вредоносным ПО и т.п., то наличие в прилетевшем из TI-источнике фида с заполненным только одним полем, уровень заполнения у нас будет 10%. И так для каждого набора данных, с которыми мы работаем. Полнота зависит от множества факторов, которые могут ограничивать заполнение полей, которые мы получаем в фидах или иных наборах данных. Например, поставщик TI может решить, что какая-то информация, которая у него есть, нам не нужна (допустим, он присылает нам IP, на котором «сидит» C2-сервер, но забывает добавить в эту информацию порты и протокол, используемые для управляющих коммуникаций). Или поставщик решил не делиться частью информации, чтобы не раскрывать методы своей работы и сбора информации (этим грешат многие американские компании и спецслужбы). Ну и, наконец, провайдер мог иметь юридические ограничения на предоставление информации, например, нарушающие GDPR, который может относить IP-адреса к персональным данным.

Релевантность информации. Этот показатель отображает соответствие TI-данных зоне ответственности компании, в которой эти данные используются. Например, если мы — российский банк, то хотелось бы, чтобы TI-источник нам отдавал данные по финансовому сектору в России, а не по промышленности в Европе. Да, хакерские группировки, работающие по промышленности в Европе могут работать и по России или через промышленное предприятие проникать в финансовую организацию, но релевантность таких данных все-таки будет ниже. Или, например, информация по жертвам в домене .RU нам интересна всегда в отличие от жертв в домене .COM; а вот источники атак интересны из любой зоны.

Своевременность информации. Этот показатель тоже понятен. Например, сейчас, информация об адресах атакующих российские ресурсы часто приходит после того, как атака уже завершена или находится в самом разгаре, то есть явно несвоевременно. Некоторые данные нам важно получить в течение пары часов, некоторых мы можем ждать сутки и более. Например, вчера НКЦКИ опубликовал бюллетень об уязвимостях «нулевого дня» в оборудовании Cisco, которые используются в настоящее время для атак на российские предприятия, в том числе и субъекты КИИ. Все бы ничего, если бы Cisco не опубликовала бюллетень об этих уязвимостях в 2017-м году. Можно ли назвать такую информацию несвоевременной? Если она позволяет защитить организации, которые 5 лет забывали пропатчить свое сетевое оборудование, то да. При этом нам нужны не просто сырые данные, но те, для которых проведен полный или хотя бы первичный анализ, который требует времени. Поэтому качественные данные — это всегда компромисс между точностью, полнотой и своевременностью.

Целостность информации. Этот показатель также является комплексным и показывает не только возможность намеренного искажения данных, но и используемые форматы и протоколы для работы с данными, которые облегчают интеграцию получаемых данных с используемыми в организации решениями (SIEM, IRP, TIP и т.п.). От скорости их обработки зависит оперативность реагирования на инциденты и принятие решений в области кибербезопасности. Если я получаю индикаторы компрометации в PDF файле или IP-адреса в неразмеченном текстовом файле, то я вынужден тратить кучу времени на извлечение данных и загрузку их в используемые системы ИБ.

Почему такой показатель как качество не может быть получен извне? А все потому, что отдельные его составные части могут иметь разное значение для разных потребителей. Например, полнота или точность зависят от потребностей получателя данных и должны вычисляться в привязке к конкретной организации и ее задач. Например, атрибуция какой-то группировки или кампании интересна только тем, кто использует эти данные, как это делают правоохранительные органы или очень крупные предприятия. Тогда в показателе полноты и точности данных мы будем учитывать наличие данных по атрибуции. А для небольшой компании, которая и вовсе ограничивается внесением IP-адресов в списки контроля доступа МСЭ, полнота и точность имеет совсем иное наполнение. Есть и более сложная ситуация, когда некачественные по отдельности источники вместе представляют вполне себе качественную информацию, дополняя друг друга. Но это уже относится к оценке всего TI-процесса, чем к отдельным его источникам.

Каждый из указанных выше показателей имеет свой вес (определяется в каждой организации по своему) и может быть ранжирован по трех- или пятибалльной шкале, которые затем суммируются; примерно так, как я описывал это применительно к ранжированию угроз в методе TARA.

У отдельных поставщиков TI, применительно к отдельным индикаторам, часто измеряется уровень доверия (confidence level) и который каждый вендор/поставщик/агрегатор Threat Intelligence вычисляет по какому-то своему, не всегда формализованному алгоритму. Например, ThreatConnect так описывает свой уровень доверия, зависящий от ответов на следующие вопросы:

Индикатор подтвержден независимыми источниками или это первичный анализ?
Это логично и правдоподобно (близко к highly likely)? В отдельности он имеет смысл?
Подтверждается ли он другой доступной информации и согласуется ли с ней (опять highly likely)?

Уровень доверия индикатора в ThreatConnect

На мой взгляд, это не самый лучший пример описания уровня доверия к индикатору, так как он больше качественный, чем количественный. Поэтому выше, описывая показатель полноты, я уровень доверия перечислил наряду с другими полями, которые могут быть учтены при оценке полноты данных Threat Intelligence.

В итоге, если провести декомпозицию для каждого набора данных, которые мы используем в деятельности информационной безопасности и рассчитаем каждый из показателей, то на выходе мы получим итоговый уровень качества данных TI (аналогично оценивать можно и другие данные ИБ), на базе которого можно принимать более обоснованные решения — ранжировать источники, отказываться от каких-то из них, обогащать их дополнительной информацией или включать их в плейбуки.

А может все это слишком сложно (особенно без автоматизации) и надо просто использовать бинарную логику при оценке качества данных — полезно/не полезно?

Решать вам!

Заметка Как оценивать источники информации: количественный подход была впервые опубликована на Бизнес без опасности.

Взлом по подписке: ИИ-агенты против вашего мобильного приложения

Как оценивать источники информации: количественный подход

Алексей Лукацкий

Подпишитесь на email рассылку