31 Марта, 2015

DLP Как это работает? Защита текстовых файлов.

InfoWatch
В этом блоге мы стараемся рассказывать не только о безопасности «вообще», но и о том, чем занимается InfoWatch. Как вы знаете, наша компания фокусируется на разработке программных продуктов для защиты информации от утечек - DataLeaks/LossPreventionили DLP. Мы запланировали цикл небольших постов, чтобы познакомить вас с технологиями, которые лежат в основе наших продуктов. Попытаемся проследить их эволюцию, расскажем, как именно современные DLP-системы справляются со своей работой.

Начнём с азов. Когда DLPсистемы были совсем молодые, с помощью них удавалось предотвращать большинство утечек информации в текстовом виде. Сюда относится неизменяемая и динамически изменяемая информация, и информация, составленная по заданному шаблону. В детектировании таких данных нам помогали такие технологии как цифровые отпечатки , текстовый классификатор и текстовые объекты соответственно.

Если у нас есть документ, который никогда не изменяется – например, долгосрочная стратегия развития компании - с него целесообразно сделать цифровой отпечаток и в случае передачи его за периметр организации DLP-система зафиксирует утечку.

Есть документы, которые постоянно изменяются, но мы точно знаем, какая лексика там присутствует – все договоры, бухгалтерская документация. Такие документы лучше всего пропустить через систему текстовой классификации и выделить категории данных, за которыми будет следить DLP.

Защищать персональные данные и финансовую информацию лучше всего с помощью анализатора шаблонов. Технология поможет выявлять в потоке данных номера кредитных карт, номера паспортов, ИНН, СНИЛС и подобные идентификаторы. Хочется отметить, что только в решении InfoWatchреализована верифицирующая функция для текстовых объектов, позволяющая снизить число ложно положительных срабатываний системы.

Применяя этот небольшой набор технологий удавалось выявить конфиденциальные данные в текстовых документах (пакет MSOffice, pdf, txt), в теле письма электронной почты, в сообщениях мессенджеров (ICQ, Skypeи т.п), а также в сканах документов, из которых предварительно извлекался текст с помощь технологии OCR .



Основным недостатком данного подхода было ограничение перечня защищаемой информации. Так, невозможно было защитить, например, видеозапись либо фотографию секретного документа.
Дальнейшее развитие технологий перехвата и анализа привело к тому, что кроме текста стало возможным защищать от утечек информацию, представленную в двоичном виде, то есть любой файл. Но об этом в следующем блог-посте серии.