Cognitive Technologies представила ПО для интеллектуального сравнения текстов

image

Cognitive Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста, устраняет синтаксические и семантические неоднозначности и выявляет порядка сотни характеристик, присущих данному тексту.

Компания Cognitive Technologies представила систему автоматического анализа и сравнения текстов. Принцип работы Cognitive Text Analyzer состоит в следующем. В систему вводится исследуемый текст. Далее, Cognitive Text Analyzer проводит синтаксический, семантический и структурный разбор и анализ текста, устраняет синтаксические и семантические неоднозначности и выявляет порядка сотни характеристик, присущих данному тексту. Точное количество характеристик зависит от объема текста и разнообразия конструкций, встречающихся внутри него. Скорость разбора текста на современном офисном компьютере составляет 450-500 страниц текста в минуту.

По словам разработчиков, при разработке систем сравнения текстов необходимо исходить из того, что текст каждого автора уникален. Как рисунок отпечатков пальцев уникален для каждого человека, так и у каждого автора существует свой собственный стиль. Один автор использует больше глаголов, другой, больше существительных или прилагательных. Кто-то пишет только о природе. Кто-то о войне. У кого-то есть свои излюбленные обороты или другие литературные приемы и схемы, характеризующиеся конкретными структурными связями.

"Если о принадлежности отпечатков пальцев конкретному человеку говорят методы дактилоскопии, то принадлежность текста конкретному автору можно определить с высокой точностью с помощью представляемой сегодня Cognitive Text Analyzer. Однако, при решении задачи анализа текстов необходимо принимать во внимание факт, что стиль (впрочем, как и линии руки) может со временем меняться", - говорят в компании.

Элементы технологии анализа созданы в рамках реализации крупных проектов, а также программы исследований и разработок, ведущихся в компании.

В пресс-службе Cognitive говорят, что в отличие от существующих систем проверки на плагиат, использующих признаки, которые можно рассчитать вручную (например, среднее количество слов в предложении, среднее число прилагательных и т.п.), Cognitive Text Analyzer учитывает не только и не столько грамматические категории, выделенные в тексте, сколько структурные связи, подчиненность одних конструкций другим в рамках предложения. Выделенные связи инвариантны к перестановке абзацев и предложений внутри текста, контекстной замене слов.

"Как показали исследования, эти характеристики демонстрируют высокую статистическую устойчивость в применении к произведениям конкретного автора. Это позволяет сравнивать текстовые произведения, получать количественные оценки их близости и с высокой статистической достоверностью судить о принадлежности перу того или иного автора. Например, если в басне И.Крылова «Ворона и лисица» заменить «ворону» на «корову», «лисицу» на «синицу», а «сыр» на «сервелат», то Cognitive Text Analyzer, несмотря на это с высокой долей вероятности подтвердит близость измененного текста к оригиналу. Аналогичная оценка будет и в случае, если в тексте переставить местами абзацы", - отмечают в компании.


или введите имя

CAPTCHA
Страницы: 1  2  
1
09-10-2008 19:47:22
Классно, что тут ещё сказать...
0 |
1
09-10-2008 21:17:17
нда...не плохо, но сомневаюсь, что будет пользоваться особой популярностью.
0 |
1
10-10-2008 13:48:50
Такие продукты хорошо работают, пока новые. После их появления их будут использовать для анализа с целью модификации текста до полной неузнаваемовти.
0 |
10-10-2008 08:31:44
Думаю что им надо не дожидаться пока о софтине забудут, сразу открыть исходники по лицензии BSD.
0 |
1
10-10-2008 09:36:46
ПО для "проверки на плагиат". Копирасты хотят в литературу свои загребущие ручонки запустить. Например издал кто-то книгу или статью какую написал, а они проверили - оказалось плагиат. В суд на него, мерзавца, подать! и пусть платит! Компенсирует недополученную прибыль.
0 |
1
10-10-2008 10:46:43
Плагиат не имеет отношения к пиратству: это присвоение авторства, а не незаконное копирование произведений другого автора (под его известным именем, которое пиратам подменять невыгодно).
0 |
1
10-10-2008 12:44:29
hook, RIA, и лично Президент Соединёных Штатов предупреждает Вас, что в тексте вашего письма использованы буквы содержащиеся в защищёных авторским правом книгах. В связи с этим вы будете оштрафованы на миллиард миллиардов долларов.
0 |
1
10-10-2008 10:54:37
Хорошая штука для контентного анализа и поиска копий(частичных копий) конфиденциальных документов.
0 |
Страницы: 1  2