Британские учёные предупреждают, что анонимные данные могут быть «деанонимизированы», и могут быть раскрыты реальные личности людей

Британские учёные предупреждают, что анонимные данные могут быть «деанонимизированы», и могут быть раскрыты реальные личности людей
Данная заметка Дева Кундалия (Dev Kundaliya) была опубликована 25 июля 2019 года на британском сайте Computing («Компьютерные вычисления», https://www.computing.co.uk/ ).

Мой комментарий: Британские учёные нередко открывают общеизвестные вещи. В данном случае, однако, о такой общеизвестной вещи невредно лишний раз напомнить :)

Разработанный в Имперском колледже Лондона (Imperial College – один из наиболее авторитетных британских вузов, о нём см. также https://ru.wikipedia.org/wiki/Имперский_колледж_Лондона ) алгоритм машинного обучения способен идентифицировать 99,98% людей в любом анонимизированном наборе данных.

Исследователи разработали алгоритм, который может правильно определять реальные личности людей в анонимизированных наборах данных, используя всего 15 демографических атрибутов.
Исследование, проведенное учеными из Имперского колледжа Лондона и бельгийского Католического университетом Лувена (l'Université Catholique de Louvain, UCLouvain) показывает, что современные методы анонимизации данных не способны защитить сложные наборы персональных данных от повторной идентификации.

Новое исследование, опубликованное в журнале Nature Communications ( https://www.nature.com/articles/s41467-019-10933-3 ) показывает, что алгоритмы машинного обучения способны легко обрабатывать анонимные данные с целью повторной идентификации людей с высокой степенью точности.

По словам исследователей, созданный ими новый инструмент может повторно идентифицировать 99,98% американцев в любом доступном анонимизированном наборе данных, используя лишь 15 атрибутов, включая пол, возраст и семейное положение.

«Хотя в городе Нью-Йорке может быть много жителей тридцатилетнего возраста, гораздо меньше их число родилось 5 января, ездит на красной спортивной машине и живёт вместе с двумя детьми (обе девочки) и собакой», - пояснил соавтор исследования доктор Люк Роше из университета UCLouvain ( https://www.imperial.ac.uk/news/192112/anonymising-personal-data-enough-protect-privacy/ ).

Такие детали дают возможность покупателям предположительно анонимных данных создавать подробные личные профили физических лиц.

Д-р Ив-Александр де Монжуа (Dr Yves-Alexandre de Montjoye), представляющий факультет вычислительной техники и Институт наук о данных Имперского колледжа отметил, что в то время, как персональные данные подпадают под положения европейского законодательства о защите персональных данных (GDPR), в случае анонимизации они могут быть проданы любому желающему.

«Несмотря на то, что они [компании] обязаны соблюдать положения GDPR, они могут свободно продавать после того, как те будут анонимизированы. Наше исследование показывает, насколько легко - и насколько точно - людей можно отследить, получив в руки такие данные.»

«Компании и государственные органы преуменьшают риск повторной идентификации, утверждая, что продаваемые ими наборы данных всегда неполны. Наши результаты показывают, что это может не помочь.»

«Результаты демонстрируют, что злоумышленник может легко и точно оценить вероятность того, что найденная запись в базе данных касается интересующего его лица.».

Профессор Жюльен Хендрикс (Julien Hendrickx) из UCLouvain добавляет: «Нас часто уверяют, что анонимизация обеспечит безопасность наших персональных данных. Наша работа показывает, что де-идентификация далеко не достаточна для защиты персональных данных людей».

Исследователи также опубликовали онлайн-инструмент, чтобы «помочь людям увидеть, какие характеристики делают их уникальными в наборах данных» ( https://cpg.doc.ic.ac.uk/individual-risk/ ). Этот инструмент предназначен только для демонстрации и не сохраняет данные пользователей.

В последние годы практика использования крупными технологическими компаниями пользовательских данных привлекла к себе пристальное внимание общественности и регуляторов в области защиты персональных данных. Ранее в этом году участники кампании в поддержку неприкосновенности частной жизни заявили, что нашли новые доказательства того, что интернет-гигант Google не соблюдает европейское законодательство GDPR защите персональных данных ( https://www.computing.co.uk/ctg/news/3070005/privacy-campaigners-file-new-evidence-to-support-claims-that-google-unlawfully-profiles-internet-users ).

А в мае 2019 года адвокат компании Facebook заявил судье американского суда, что пользователям Facebook не следует ожидать обеспечения неприкосновенности их частной жизни, поскольку её нет ни на одной платформе социальных сетей ( https://www.computing.co.uk/ctg/news/3076621/facebook-lawyer-privacy-social-media ). Компанию также обвинили в разглашении данных о смартфонах пользователей телекоммуникационным компаниям и производителям смартфонов ( https://www.computing.co.uk/ctg/news/3076094/facebook-instagram-messenger-app-data-telecoms-advertising ).

Медицинские и технологические компании часто собирают пользовательские данные, включая сведения из документов о здоровье, и преобразуют их в, как считается, анонимные данные.

В этих наборах нет такой идентифицирующей информации, как имена, идентификаторы электронной почты, номера телефонов и т.д. Эти данные удаляются для того, чтобы гарантировать, - по крайней мере, теоретически, - что никто не может идентифицировать человека, к которому данные относятся.

На такие анонимизированные данные больше не распространяются положения законодательства о защите персональных данных, такого, как закон GDPR, и они могут свободно предоставляться брокерам данных и рекламным фирмам.

Дев Кундалия (Dev Kundaliya)

Источник: сайт Computing.co.uk
https://www.computing.co.uk/ctg/news/3079528/machine-learning-anonymised-data
анонимизация Великобритания искусственный интеллект машинное обучение персональные данные
Alt text

Один хакер может причинить столько же вреда, сколько 10 000 солдат! Подпишись на наш Телеграм канал, чтобы узнать первым, как выжить в цифровом кошмаре!