
Исследование вносит вклад в общее обсуждение этичности использования авторских изображений для обучения нейросетей. В середине января несколько художников даже
Самый простой метод «атаки» показан на картинке ниже. По текстовому запросу, содержащему имя и фамилию реального человека, выдается очень похожая на оригинал фотография с традиционными для алгоритмов машинного обучения «криповатыми» изменениями. Исследователи выяснили, что главным триггером таких утечек является большое количество дубликатов одной и той же картинки в датасете — речь идет о десятках копий. Из 500 случайно выбранных часто копируемых изображений авторам работы удалось сгенерировать 109 практически идентичных копий. Большинство из них — фотографии людей, продуктов или логотипы, как показано на первом скриншоте в статье.

Тестирование проводилось и на тех изображениях, которые присутствуют в датасете в единственном экземпляре. В этом случае процент «утечек» серьезно снижается и возникают трудности уже с отделением настоящих дубликатов от картинок по мотивам обучающего датасета. Пожалуй, самая интересная атака предлагает нейросети дорисовать картинку на основе фрагмента:

Как минимум с искусственными примерами данный метод позволяет надежно определить, имеется ли какое-то изображение в датасете. В теории это поможет доказать нарушение авторских прав либо приведет к утечке приватных данных. В качестве решения проблемы исследователи предлагают очевидное: убрать из обучающего набора дубликаты. Кроме того, предлагается метод внесения искажений в обучающие картинки, снижающий сходство сгенерированной картинки с оригиналом. Наконец, поднимается вопрос предварительного тестирования систем генерации картинок с использованием «изображений-канареек»: это позволит получить объективную оценку в виде доли изображений, выдаваемых почти без изменений.
В исследовании также сравнивается приватность датасетов в разных алгоритмах — диффузионные сети сравниваются с генеративно-состязательными (GAN). Последние ввиду своих особенностей допускают меньше утечек, но и в них иногда «создаются» изображения, практически идентичные таковым из обучающего набора.
Что еще произошло:
Новая статья экспертов «Лаборатории Касперского»
В
Свежая история о компрометации учетных данных сотрудника, на этот раз от
Издание Ars Technica
На прошлых выходных был