DLP Как это работает? Часть 2. Веселые картинки

DLP Как это работает? Часть 2. Веселые картинки
В прошлый раз мы обсудили , какие технологии в составе DLP-системы позволяют защищать информацию, представленную в виде простого текста. Сегодня мы расскажем о защите изображений. Традиционно для работы с отсканированными документами используют технологию преобразования картинок в текст (OCR), с которым DLP давно научились работать. Но что делать, если объект защиты – именно изображения?



Научить искусственный интеллект поиску по картинкам – дело хлопотное. Задача становится еще более сложной, если приходится искать не полное изображение, а его фрагменты. Поисковые системы не «заморачиваются» в этом отношении, а нам приходится.

Злоумышленник, задумавший украсть из родной организации чертежи или топографические карты, скорее всего, будет их пересылать по частям. Возможно, он перекодирует файл, сохранит изображение в другом формате, изменит его. Наша задача – сделать так, чтобы DLP точно и безошибочно «узнавала» исходный документ в потоке трафика и сообщить об утечке.

Самый простой способ – создать обучающую коллекцию изображений с положительными и отрицательными примерами. Данную технологию можно использовать для предотвращения утечек отсканированных личных документов, таких как паспорт или права.

Можно попросить систему реагировать на конкретные детали изображения. К примеру, эталонную печать. Такой печатью можно помечать документы, которые ни при каких условиях не должны передаваться вовне. Система будет искать не документы в целом, а элементы изображения печати, что немного проще.

Помимо этого, широко применяется копирайтный анализ (цифровые отпечатки) для картинок. В данном подходе используется заранее заданный образец картинки, и если перехваченный объект совпадает с эталоном, то утечка предотвращается. Про детектирование утечек сканов или фотографий кредитных карт мы не упоминаем. Это, как говорится, «семечки».

Главное, на анализ изображений в нашей DLP системе формат исходных файлов никак не влияет. Исходное изображение может быть изменено до неузнаваемости – отражение, поворот, наличие помех, шума, кроп, масштаб, разделение на фрагменты, - мы его все равно обнаружим.

Дальнейшим развитием в этом направлении может стать создание технологий анализа для ещё не затронутых форматов, которые в настоящее время могут быть проанализированы лишь как набор бит. Например, это могут быть технологии анализа видео. К сожалению, мощности современных процессоров не хватает для анализа видео в realtime режиме, но это вопрос 3-5 лет.

Ещё одним направлением развития технологий анализа является анализ внутренних взаимосвязей между данными внутри текста. Примерами таких технологий могут служить технология детектирования утечек выгрузок из баз  данных и технология анализа заполненных форм .
DLP-система обучение
Alt text

Тени в интернете всегда следят за вами

Станьте невидимкой – подключайтесь к нашему каналу.

InfoWatch

Блог компании infowatch infowatch.livejournal.com