Две идеи для DLP-шников. Часть 1

В предыдущем посте я обещал рассказать о том, что можно получить, применяя методы анализа больших объемов неструктуированной информации применительно к данным, генерируемым в информационных системах компании и накапливаемых в недрах DLP-систем, и как превратить DLP в инструмент, полезный не только "любителям подглядывать" и собирающим доказательную базу "оперативникам", но способным выдавать аналитику, крайне полезную и понятную как "безопасникам", так и бизнес-подразделениям с минимальной интерпретацией или без таковой. Обещания, как известно, надо выполнять, поэтому...

Идея первая: предсказатель будущего

Несколько лет тому назад автор этого блога, участвуя в проекте построения СБ "с нуля", узнал о ее деятельности очень много интересного. Обо всем рассказать - никакого блога не хватит, поэтому остановлюсь на одном аспекте, как нельзя лучше подходящем к теме поста ;)

Информационное поле, в котором работает "экономическая безопасность", фактически зиждется на трех "столпах": оперативная информация (та, что отрыли ЭБ-шники в ходе "общения с людьми"), информация от официальных источников (МВД, ФССП, налоговая, ФМС и т.д.), и средства массовой информации. Все это собирается на бумаге, в голове и ПК ЭБ-шника, подвергается тщательной перекрестной проверке, результаты анализируются, делаются выводы, формируется отчет с предложениями, складывается "в папочку" и представляется руководству, которое принимает соответствующее решение. Руководство может принять решение не принимать никаких решений - но это уже другой вопрос: работа ЭБ-шника все равно считается выполненной, и "папочка" уходит на заслуженное место "на полочке".

Те из вас, дорогие ИБ-шники из "реального сектора", кто работает в составе СБ предприятия, знают, что в СБ доминирует "экономическая безопасность", а ИБ-шник для СБ, помимо прочего, выполняет функции "внутреннего ИТ-шника". Поэтому на этапе создания СБ мне, как "внутреннему ИТ-шнику", было поручено обеспечить "экономистов" информационной поддержкой и надлежащими инструментами, позволяющими вести аналитическую работу. При этом, охватить нужно было все три упомянутых выше "столпа" - источника. И я стал "чесать репу".

Проще всего оказалось решить задачу с информацией от "официальных структур": системы СПАРК и СКРИН отлично дополняли объем данных, получаемых бывшими "силовиками" (ныне ЭБ-шниками), что называется, "по своим каналам". Проблема с защищенным хранением "оперативной" информации, на начальном этапе не требовавшей сложных операции поиска и анализа, и в основной массе представляющей собой данные в формате *.DOC, тоже не было проблем. А вот что делать с информацией из СМИ, точнее - как собрать воедино данные из огромной кучи центральных и региональных источников, да потом еще анализировать, у меня не было никаких идей. Но решать задачу было нужно, это был очень интересный challenge и я, для начала, решил "погуглить".

Это занятие незамедлительно дало свои плоды в виде журнальной статьи, похожей на эту. Оказалось, что на рынке существует более десятка специальных программных комплексов, позволяющих решить требуемую задачу. Все, что было нужно - оценить "охват" источников СМИ, юзабилити, аналитические возможности и способность программно-аппаратных средств "вписаться" в инфраструктуру. И если с последним у меня не было проблем, первое тоже вполне решабельно, то в плане аналитики проводить сравнительную оценку продуктов я был не готов - откуда же я знал, что ЭБ-шникам было нужно. Поэтому мне "отрядили" профессионального аналитика - бывшего сотрудника самой уважаемой "конторы", который, собственно, и стал бы впоследствие пользователем этой системы.

Просмотрев за месяц уйму презентаций и демонстраций, аналитик явно загрустил: ничего ему не нравилось - то охват не тот, то аналитика... И вдруг ему, по "своим каналам", приходит информация о системе "ТРЕНД" - дескать, "съезди, посмотри". Приехав в офис компании "Вербин и партнеры", разработчика этой системы, и посмотрев систему "в деле", ЭБ-шник был восхищен, и взгляд его "загорелся". Система ему понравилась настолько, что решение о приобретении этой весьма недешевой "игрушки" было принято в течение одной недели после демонстрации, и уже через месяц начала давать первые, очень интересные результаты.

Со временем бизнес трансформировался, задачи изменились и система перестала им соответствовать. И, как это обычно бывает, замечательная с точки зрения математики, философии и социологии идея так и осталась идеей по причине недостаточных технических знаний и ресурсов на ее реализацию. Аналитик из СБ уволился, сопровождать ее стало некому, и было принято решение остановить эксплуатацию.

Все это было несколько лет тому назад. Но самое главное - ИДЕЯ - осталась, и по прежнему развивается, и теперь, когда DLP-шники задаются вопросом, куда идти дальше, самое время посмотреть в ее сторону. "Волков, хорош бла-бла, говори что за идея" - возмутитесь вы. Сейчас расскажу. Но сначала нужно ввести вас в курс дела, и поэтому я очень рекомендую прочитать статьи, доступные по этой ссылке (их совсем не много).

...

Прочитали? Отлично. Нет - ну и ладно. Если из приведенного по ссылке материала убрать все лишнее - мы получим аксиому, на которой базируется идея.

Аксиома состоит в том, что любое событие где-то когда-то с кем-то уже происходило, и всегда сопровождалось определенным "информационным фоном".

Для того, чтобы предсказать наступление интересующего нас события для конкретного объекта, необходимо отыскать в прошлом аналогичное событие и понять, насколько окружающий нас "информационный фон" вокруг объекта похож на тот, что сопровождал прошедшее событие.

В этом и заключается идея. В нашем случае "информационный фон" есть ни что иное, как некий объем неструктуированных данных в текстовой форме, полученных из различных источников, и задача заключается в том, чтобы определить, насколько один набор raw data похож на другой. Вы спросите - как ее реализовать? В этом нам поможет презентация продукта.

Можно долго рассказывать о теории распознавания образов, нечеткой логике, строить математические модели и определять меры схожести - но это все уже сделали за нас отцы-основатели и авторы приведенной выше презентации. В итоге оказалось, что самым лучшим "образом" любого текста является т.н. "тезаурус" - словарно-частотное распределение, представленное на слайде 6.

В теории все выглядит достаточно просто (слайд 7): аналитик, смотря в прошлое, ищет интересующую ситуацию, определяет ее граничные временные значения (начало-конец), выбирает источники, упоминавшие о ней, формирует raw data, генерирует "тезаурус", "подчищает" его и создает "эталон", который помещается в систему анализа и сравнения. С другой стороны, система поиска и сбора информации постоянно "мониторит" информационный фон вокруг нашего "объекта", формирует "экспериментальную модель тезауруса" и отправляет ее в эту же систему. Система сравнивает, насколько "эталон" похож на "экспериментальную модель" и выдает соответствующий результат (этот процесс хорошо продемонстрирован на слайде 10).

Просто, понятно и самое главное - это реально работает. На слайдах 33, 37 и 38 приведены примеры таких отчетов в отношении различных ситуаций, а сколько я их еще видел, когда работал с системой "ТРЕНД"... Но, к огромному сожалению, есть один нюанс, из-за которого эта система так и не получила массового распространения. Заключается он в том, что источниками данных для нее являются исключительно новостные интернет-сайты (центральных и региональных СМИ и т.д.). И если в отношение событий вокруг государственных структур и крупных корпораций (то, о чем пишут в СМИ) система строила весьма информативные графики, то в отношение всего остального, что "помельче" и о чем СМИ не пишет, "ТРЕНД" не давал практически никакой информации.

Конечно, в систему можно "залить" любые данные - очевидно, так и поступили авторы презентации для того, чтобы сформировать графики, представленные на слайдах 35 и 36. Но однозначно это была разовая, ручная работа. И к сожалению, ничего из того, что изображено в левой части слайда 16 не было и, судя по всему, так и осталось нереализованным. Но давайте внимательно приглядимся к левой части слайда 16 - что на ней изображено? Бааа - да это же прообраз DLP-системы, пусть и нарисован не совсем так, как мы привыкли видеть в рекламных материалах самих DLP.

Что можно получить, интегрировав данные, собираемые DLP-системой, с аналитической системой такого класса? Я не случайно упомянул PRISM в предыдущем посте - потому что в такой "связке" мы получим его аналог корпоративного масштаба. И речь даже не о "кадровом кризисе", "лояльности сотрудников", "следование правилам корпоративной этики" или "сравнении компании с конкурентами" - то, чего так любит бизнес: такие отчеты аналитическая система "клепала" бы, что называется, "на ура". Благодаря такому объединению мы получили бы систему, способную предсказать инцидент на стадии его подготовки или даже близкой к замыслу!

Все, что для этого нужно - лишь эталонный "образ" похожего инцидента, составленный аналитиком, на основе модели поведения, личного опыта и самое главное - "образа" инцидента, полученного от пользователей системы. Да, дорогие читатели - именно пользователей, и это будет совершенно новая ступень эволюции в области безопасности. Ни для кого не секрет, что сейчас большинство инцидентов замалчиваются, и компании весьма неохотно делятся опытом их предотвращения и ликвидации последствий. Безопасники не привыкли выносить сор из избы. Но в данном случае ничего выносить и не придется: аналитикам может отправляться обезличенное словарно-частотное распределение и краткая характеристика инцидента (например, "кража металлолома"). Более того, СБ сами будут заинтересованы в таком обмене, поскольку это существенно повысит качество распознавания.

То же самое касается и облачных технологий. Сейчас к облачным DLP очень настороженное (если не сказать негативное) отношение - ни один бизнесмен не захочет отправлять данные со всех своих средств внешних коммуникаций непонятно кому. Но в данном случае дело обстоит совсем иначе. Зачем у себя иметь сложную аналитическую систему и соответствующую инфраструктуру, если можно с локально собранных данных снять "тезаурус", слегка обработать его и направить в "облако" для анализа? Конечно, остается вопрос с доступом сотрудников "облачка" к той же аналитике, что получаете вы сами, но и его можно решить.

И я даже боюсь представить, что можно получить, если применить теорию распознавания "образов" к данным, получаемым в результате мониторинга действий пользователя в информационной системе, с помощью которой реализуются ключевые бизнес-процессы компании (например, ERP)...

Поэтому, дорогие коллеги DLP-шники, если вы действительно хотите построить универсальную аналитическую систему - знайте, что все уже изобретено до вас, и вам остается только взять ... и реализовать :)

Конечно, это сложно и ресурсоемко, но нет ничего невозможного. И я уже чувствую, что и вас утомил, да и сам утомился :) Поэтому, про вторую идею я расскажу в следующем посте.

Взлом по подписке: ИИ-агенты против вашего мобильного приложения

Две идеи для DLP-шников. Часть 1

Алексей Волков

Подпишитесь на email рассылку