"Пропустите, он со мной"

"Пропустите, он со мной"
Системы рубрикации, т.е. определения тематики текстов используются для разных целей. Обязательно есть такой блок в полноценной DLP-системе. Также на рубрикации основаны некоторые системы цензуры . Другие применения сейчас не поминаем, поскольку речь пойдёт о преодолении, т.е. как обмануть рубрикацию.

Рубрикатор распознаёт слова и словосочетания, которые у него есть в словаре. Каждое из них сопоставлено одной или нескольким рубрикам с тем или иным весом. Веса обнаруженных слов суммируются или собираются в какую-то более сложную формулу, зависящую от ряда условий. При превышении порога соответствующая рубрика (тематика) присваивается всему тексту.

Словари и алгоритмы вычисления веса должны быть конфиденциальными. В противном случае их будет легче обойти. Напомню, что цензуру и DLP стремятся преодолеть с обеих сторон одновременно – и получатель, и отправитель. В отличие от того же спама, где получатель играет на стороне фильтрующего.

Наш противник может догадыватьсяоб имеющихся в словаре терминах и их весе. Но догадки ему мало помогут, поскольку при составлении текста он должен выдержать баланс. С одной стороны, набрать ниже порогового значения. С другой – употребить достаточно тематических терминов, чтобы читатель понял, о чём речь.

С алгоритмом рубрикации ещё веселее. Поясню на примере. Когда текст попадает в тематику "эротика и порнография", он блокируется цензурным фильтром. Но если одновременно присутствует рубрика "медицина" – он пропускается, поскольку очень многие тексты о здоровье и лечении терминологически близкик порнорассказам. Становится ясно, как порномастеру преодолеть цензуру. Надо использовать несколько "тяжелых" медицинских терминов; иногда хватает даже одного.

Так что принцип Киркхоффа здесь неприменим. Секретного ключа просто нет, приходится секретить алгоритм.

цензура родительский контроль термины DLP-система
Alt text

Устали от того, что Интернет знает о вас все?

Присоединяйтесь к нам и станьте невидимыми!

InfoWatch

Блог компании infowatch infowatch.livejournal.com