16 Февраля, 2012

"Пропустите, он со мной"

InfoWatch
Системы рубрикации, т.е. определения тематики текстов используются для разных целей. Обязательно есть такой блок в полноценной DLP-системе. Также на рубрикации основаны некоторые системы цензуры . Другие применения сейчас не поминаем, поскольку речь пойдёт о преодолении, т.е. как обмануть рубрикацию.

Рубрикатор распознаёт слова и словосочетания, которые у него есть в словаре. Каждое из них сопоставлено одной или нескольким рубрикам с тем или иным весом. Веса обнаруженных слов суммируются или собираются в какую-то более сложную формулу, зависящую от ряда условий. При превышении порога соответствующая рубрика (тематика) присваивается всему тексту.

Словари и алгоритмы вычисления веса должны быть конфиденциальными. В противном случае их будет легче обойти. Напомню, что цензуру и DLP стремятся преодолеть с обеих сторон одновременно – и получатель, и отправитель. В отличие от того же спама, где получатель играет на стороне фильтрующего.

Наш противник может догадыватьсяоб имеющихся в словаре терминах и их весе. Но догадки ему мало помогут, поскольку при составлении текста он должен выдержать баланс. С одной стороны, набрать ниже порогового значения. С другой – употребить достаточно тематических терминов, чтобы читатель понял, о чём речь.

С алгоритмом рубрикации ещё веселее. Поясню на примере. Когда текст попадает в тематику "эротика и порнография", он блокируется цензурным фильтром. Но если одновременно присутствует рубрика "медицина" – он пропускается, поскольку очень многие тексты о здоровье и лечении терминологически близкик порнорассказам. Становится ясно, как порномастеру преодолеть цензуру. Надо использовать несколько "тяжелых" медицинских терминов; иногда хватает даже одного.

Так что принцип Киркхоффа здесь неприменим. Секретного ключа просто нет, приходится секретить алгоритм.

или введите имя

CAPTCHA
Voroshek
3 Сентября, 2013
А применяется ли оно на самом деле? Читал я недавно статью про программы-архиваторы. Так сайт, на котором она находилась, нормальный информационный сайт, был в "чёрном списке" (я читал его через гуглопереводчик).
0 |