Security Week 2307: утечка обучающих датасетов из нейросетей

Security Week 2307: утечка обучающих датасетов из нейросетей
Исследователи из университетов США и Швейцарии опубликовали научную работу, в которой исследуется утечка данных, используемых для обучения нейросетей. Конкретно изучались диффузионные модели, а большинство экспериментов проводились с разработками Stable Diffusion и Imagen, генерирующими картинки по текстовому запросу. Для них было показано несколько вариантов атак, в результате которых генерируется не «новое» изображение, а практически идентичная копия картинки из обучающего датасета.



Исследование вносит вклад в общее обсуждение этичности использования авторских изображений для обучения нейросетей. В середине января несколько художников даже подали иск к создателям подобных сервисов, в котором, в частности, как источник проблем упоминается Stable Diffusion. Новые методы, провоцирующие утечки обучающих изображений, могут использоваться как для выведения сервисов «на чистую воду», так и для улучшения защиты исходных картинок разработчиками. В некоторых случаях, когда в датасетах содержится приватная информация, исключить утечки может быть особенно важно.

Самый простой метод «атаки» показан на картинке ниже. По текстовому запросу, содержащему имя и фамилию реального человека, выдается очень похожая на оригинал фотография с традиционными для алгоритмов машинного обучения «криповатыми» изменениями. Исследователи выяснили, что главным триггером таких утечек является большое количество дубликатов одной и той же картинки в датасете — речь идет о десятках копий. Из 500 случайно выбранных часто копируемых изображений авторам работы удалось сгенерировать 109 практически идентичных копий. Большинство из них — фотографии людей, продуктов или логотипы, как показано на первом скриншоте в статье.



Тестирование проводилось и на тех изображениях, которые присутствуют в датасете в единственном экземпляре. В этом случае процент «утечек» серьезно снижается и возникают трудности уже с отделением настоящих дубликатов от картинок по мотивам обучающего датасета. Пожалуй, самая интересная атака предлагает нейросети дорисовать картинку на основе фрагмента:



Как минимум с искусственными примерами данный метод позволяет надежно определить, имеется ли какое-то изображение в датасете. В теории это поможет доказать нарушение авторских прав либо приведет к утечке приватных данных. В качестве решения проблемы исследователи предлагают очевидное: убрать из обучающего набора дубликаты. Кроме того, предлагается метод внесения искажений в обучающие картинки, снижающий сходство сгенерированной картинки с оригиналом. Наконец, поднимается вопрос предварительного тестирования систем генерации картинок с использованием «изображений-канареек»: это позволит получить объективную оценку в виде доли изображений, выдаваемых почти без изменений.

В исследовании также сравнивается приватность датасетов в разных алгоритмах — диффузионные сети сравниваются с генеративно-состязательными (GAN). Последние ввиду своих особенностей допускают меньше утечек, но и в них иногда «создаются» изображения, практически идентичные таковым из обучающего набора.

Что еще произошло:

Новая статья экспертов «Лаборатории Касперского» рассказывает о веб-маяках: трекинговых пикселях или скриптах. Приведена интересная статистика популярности различных трекеров в вебе: в первой тройке — инструменты компаний Google, Microsoft и Amazon. В почтовых сообщениях чаще всего встречаются трекеры сервисов Mailchimp, Sendgrid и интернет-магазина Rakuten.

В свежем патче библиотеки OpenSSL закрыта серьезная уязвимость, позволяющая читать данные из оперативной памяти и инициировать отказ в обслуживании.

Свежая история о компрометации учетных данных сотрудника, на этот раз от социальной сети Reddit. Взлом учетки обеспечил организаторам атаки доступ к внутренней документации и исходному коду, но не к пользовательским данным.

Издание Ars Technica рассказывает об уязвимости в игре DOTA 2, которую компания Valve не могла исправить больше года. Точнее, уязвимость присутствовала в движке Javascript V8 от компании Google, который используется в игре. Промедление с выпуском патча для известной уязвимости привело к распространению вредоносных модов к игре в марте прошлого года.

На прошлых выходных был взломан почтовый сервер регистратора Namecheap, от имени которого распространялись фишинговые сообщения.
dall-e stable diffusion midjourney
Alt text
Обращаем внимание, что все материалы в этом блоге представляют личное мнение их авторов. Редакция SecurityLab.ru не несет ответственности за точность, полноту и достоверность опубликованных данных. Вся информация предоставлена «как есть» и может не соответствовать официальной позиции компании.
310K
долларов
до 18 лет
Антипов жжет
Ребёнок как убыточный
актив. Считаем честно.
Почему рожают меньше те, кто умеет считать на десять лет вперёд.

FREE
100%
Кибербезопасность · Обучение
УЧИСЬ!
ИЛИ
ВЗЛОМАЮТ
Лучшие ИБ-мероприятия
и вебинары — в одном месте
ПОДПИШИСЬ
T.ME/SECWEBINARS