Синтетические данные не обеспечивают надежной защиты конфиденциальности

11:55 / 27 сентября, 2021

Защита обеспечивается только за счет снижения полезности систем поиска информации, которые их используют.

Результаты нового исследования специалистов из Федеральной политехнической школы Лозанны (EPFL) в Париже и Университетского колледжа Лондона (UCL) ставят под сомнение растущую уверенность в том, что синтетические данные могут решить проблемы конфиденциальности, которые угрожают прогрессу в сфере машинного обучения.

Как утверждают эксперты, синтетические данные, смоделированные на основе реальных данных, сохраняют достаточно подлинной информации для успешного проведения атак логического вывода и membership-атак, направленных на деанонимизацию данных и повторное восстановление связей с реальными людьми.

«Имея доступ к синтетическому набору данных, противник может с высокой степенью уверенности сделать вывод о наличии целевой записи в исходных данных», — сообщили специалисты.

Дифференциально частные синтетические данные, скрывающие подпись отдельных записей, действительно защищают личную жизнь людей, но только за счет значительного снижения полезности систем поиска информации, которые их используют. Как сообщили исследователи, синтетические наборы данных не обеспечивают должный уровень прозрачности.

Исследователи провели тесты существующих частных алгоритмов обучения генеративной модели и обнаружили, что определенные решения по реализации нарушают формальные гарантии конфиденциальности, оставляя различные записи уязвимыми к атакам логического вывода.

Авторы предложили пересмотренную версию каждого алгоритма, потенциально снижая эти риски, и сделать код доступным в виде библиотеки с открытым исходным кодом. Это поможет исследователям оценить повышение конфиденциальности синтетических данных и сравнить популярные методы анонимизации.

Для целей исследования ученые оценили повышение конфиденциальности с помощью пяти алгоритмов обучения генеративной модели. Три модели не обеспечивают явной защиты конфиденциальности, в то время как две другие предоставляют дифференцированные гарантии конфиденциальности. Эти табличные модели были выбраны для представления широкого спектра архитектур. В ходе эксперимента были атакованы табличные модели BayNet, PrivBay (производное от PrivBayes и BayNet), CTGAN, PATEGAN и IndHist.

Платформа оценки моделей была реализована в виде библиотеки на языке Python с двумя основными классами — GenerativeModels и PrivacyAttacks. Платформа также может оценивать преимущества конфиденциальности анонимных и синтетических данных.

В тестах использовались два набора данных: набор данных для взрослых из репозитория машинного обучения UCI и файл данных общего пользования с данными о выписке из больницы из Департамента здравоохранения штата Техас. Версия набора данных Техаса, используемая исследователями, содержала 50 тыс. записей, взятых из историй болезни пациентов за 2013 год.

Авторы выбрали две целевые группы, состоящие из пяти случайно выбранных записей для категорий «меньшинства» населения, поскольку они наиболее подвержены риску атак атакам «связывания». Они также выбрали записи с «редкими значениями категориальных атрибутов» за пределами 95% квантиля этих атрибутов. Примеры включают записи, связанные с высоким риском смертности, высокими общими расходами в больнице и тяжестью заболевания.

Множественные модели атак были обучены на основе общедоступной справочной информации для разработки «теневых моделей» по десяти целям. Как показали результаты ряда экспериментов, ряд записей был «очень уязвим» к атакам. Результаты также показали, что 20% всех целей в испытаниях получили нулевой выигрыш в конфиденциальности от синтетических данных, полученных с помощью методов GAN.

Результаты варьировались в зависимости от метода, используемого для генерации синтетических данных, вектора атаки и характеристик целевого набора данных. Во многих случаях эффективное подавление личности с помощью подходов к синтетическим данным снижает полезность систем. Фактически, полезность и точность таких систем во многих случаях могут быть прямым показателем того, насколько они уязвимы к атакам повторной идентификации.

0-day в деле

Синтетические данные не обеспечивают надежной защиты конфиденциальности

Старость — это просто ошибка кода

Подпишитесь на email рассылку