Анонимизация и большие данные: Является ли анонимизация иллюзией?

Анонимизация и большие данные: Является ли анонимизация иллюзией?
[LEFT]
Данная заметка Дика Вейсингера (Dick Weisinger – на фото) была опубликована 9 февраля 2017 года на блоге компании Formtek.

Анонимизация данных представляет собой метод удаления персональных данных из набора данных с целью защиты частной жизни физического лица или компании, от которых эти данные были получены. Иногда её ещё называют «обфускацией данных» (data obfuscation – меры, мешающие понять смысл данных – Н.Х.). Мо мере расширения использования аналитики данных и технологий «больших данных», использование анонимизированных (обезличенных) наборов данных стало популярным.

Аналитик фирмы Gartner Рамон Криккен (Ramon Krikken) отмечает (см. http://searchcompliance.techtarget.com/feature/High-dimensional-info-complicates-data-anonymization-techniques ), что «методы анонимизации данных позволяют организациям модифицировать данные таким образом, что в рамках набора данных конфиденциальность соответствующих физических лиц оказывается защищенной хотя бы в какой-то степени».

Научный сотрудник Медиа-лаборатории Массачусетского технологического института (Massachusetts Institute of Technology, MIT) Ив-Александр де Монжуа (Yves-Alexandre de Montjoye) и интервью сайту SearchCompliance ( http://searchcompliance.techtarget.com/feature/High-dimensional-info-complicates-data-anonymization-techniques ) сказал, что «анонимизация данных представляет собой двухэтапный процесс, включающий псевдонимизацию (pseudonymization) и деидентификацию (de-identification). Чтобы данный подход заработал, идея заключается в том, чтобы взять конфиденциальные данные (скажем, сведения об оказании услуг мобильной связи или медицинские данные) и удалить любую информацию, которая может позволить восстановить их связь с конкретным человеком. После этого данные могут быть использованы, например, в научных исследованиях, не ставя под угрозу неприкосновенность частной жизни людей».

Но не все согласны с тем, что полная анонимизация возможна. Пит Уорден (Pete Warden), пишущий для компании O'Reilly, считает (см. https://www.oreilly.com/ideas/anonymize-data-limits ), что «анонимизация - это иллюзия. Как раз потому, что в настоящее время существует очень много различных государственных наборов данных, с которыми данные можно сопоставить, для любого набора записей, содержащих нетривиальный объём информации о чьих-то действиях, с хорошей вероятностью может быть установлена связь с государственными данными, идентифицирующими человека.

Профессор права Пол Ом (Paul Ohm) считает (см. http://www.uclalawreview.org/pdf/57-6-3.pdf ), что «данные могут быть либо полезными, либо или совершенно анонимными, но никогда и теми и другими одновременно ... Научные методы повторной идентификации (реидентификации) подрывают всю систему защиты персональных данных, убивая нашу доверие к  анонимизации. Это немаленький вопрос, поскольку специалисты в области технологий полагаются на это доверие в целях оправдания обмен данными без особого разбора и их постоянного хранения, все время обещая своим пользователям (и всему миру), что они защищают неприкосновенность частной жизни. Достижения в области реидентификации выставляют эти обещания как во многих случаях иллюзорные».

Дик Вейсингер (Dick Weisinger)

Мой комментарий: Тем временем в Евросоюзе вскоре вступит в силу новое, более жёсткое законодательство прямого действия о защите персональных данных, а Россия резко повысила размеры штрафов за нарушения при обработке персональных данных…

аналитика анонимизация большие данные информационная безопасность персональные данные
Alt text

Один хакер может причинить столько же вреда, сколько 10 000 солдат! Подпишись на наш Телеграм канал, чтобы узнать первым, как выжить в цифровом кошмаре!