Эволюция анализа данных

Эволюция анализа данных
Речь пойдёт об анализе больших массивов неструктурированных данных. Но сначала пару слов вступления. Не так давно на глаза мне попалась небольшая заметка, в которой упоминался отчёт IBM о неструктурированных данных. Ежегодное увеличение структурируемых данных составляет 32%, резервных копий на 49%, а неструктурируемых данных уже на 63%. По оценкам специалистов IBM, в большой компании до 90% данных представляют собой просто нагромождение информации. Обрабатывать её традиционными способами неэффективно, да и непонятно как. Собственно, именно поэтому появились специальные аналитические движки и сервисы. Они используют распределенную архитектуру и не требуют предварительной обработки данных для анализа. При этом можно использовать данный инструментарий как по модели публичного облака, так и развернуть соответствующий кластер внутри компании. Возможно и сочетание обоих подходов, что активно продвигается, в частности, EMC. Причем, в отличие от многих серверов баз данных, все эти системы хорошо работают и в виртуальных средах. Лично мне кажется, что обработка таких массивов данных – золотая жила. И вот почему.
 
Анализ неструктурируемых данных, хранимых как в корпоративных информационных системах, так и в общедоступных источниках, позволяет получать весьма ценную для бизнеса информацию. Можно отслеживать успешность проводимых компанией акций, анализируя сообщения в блогах и социальных сетях на определённую тематику. Можно отслеживать глобальные интересы пользователей и планировать продажи того или инога товара. Wal-Mart использовала такие методы для планирования спроса на определенные классы товаров, пользующиеся самым высоким спросом во время сезона штормов. При этом выводы исследования оказались неожиданными, поскольку самым востребованным после батареек товаром стал один из видов печенья, который может долго храниться без холодильника и не требует никакой кулинарной обработки.
Применение новых технологий порой появляются там, где их никто не ожидает. К примеру Disney применяет средства анализа больших данных для планирования продаж своей продукции, а также для верстки сетки киносеансов. Аналогичным образом, насколько известно, действует и российская сеть кинотеатров «КАРО Фильм».
А какие горизонты открываются для анализа открытой информации из социальных сетей! Действительно, какие? Ваши варианты?
А. Дрозд,  
аналитик компании SearchInform
Alt text

Мир на грани катастрофы и только те, кто подпишется на наш телеграм канал, смогут выжить в Киберапокалипсисе!

СёрчИнформ

Взгляд на информационную безопасность от компании SearchInform и сторонних экспертов.