5 Ноября, 2011

В начале был хаос

InfoWatch
80% данных, накапливаемых в компаниях – неструктурированные.

Рост объёмов таких данных (200% в год, между прочим) не оставляет никакой надежды, что данные когда-нибудь приобретут структуру и упорядоченность. Разве что, их распознаванием и раскладыванием по полочкам займутся роботы со знанием естественного языка; но это ещё не скоро.

Следовательно, потенциальный доход софтопроизводителей лежит в работе с мусоромданными неопределённой структуры. Собственно, на этом поднялись поисковики. Одни поднялись, другие провалились, будучи не в силах сладить с человеческой неформальностью. За рынком глобального и национального поиска идёт рынок поиска корпоративного, потом личного.

Как раз на корпоративном поиске мы сейчас и зарабатываем денежки. Правда, DLP ищет не как Гугл – один образец во многих документах, а наоборот – много образцов в одном документе.

Кроме поиска работа с неструктурированными данными включает их обобщение и подсчёт всякой статистики. А здесь поле деятельности едва начали пахать.