Новая технология решит проблему авторских прав в ИИ.
Исследователи из Калифорнийского университета в Риверсайде предложили новый способ заставить ИИ-модели «забывать» нежелательные данные без полного и дорогого переобучения. Это может помочь компаниям соответствовать требованиям законодательства об авторском праве и защите персональной информации.
Современные модели обучаются на огромных объёмах данных, собранных из интернета, включая материалы без согласия правообладателей. Такие практики уже стали причиной множества исков и вызвали вопросы у регуляторов о праве на удаление данных в рамках GDPR и CCPA.
Традиционный вариант решения проблемы — переобучение моделей с чистыми наборами данных. Но это требует миллионов часов работы GPU и огромных затрат, поэтому на практике такой подход практически нереализуем.
Учёные уже несколько лет ищут более эффективные методы «разучивания», которые позволили бы удалить данные без разрушения модели. Однако большинство решений предполагает доступ к исходному датасету, что далеко не всегда возможно.
Команда профессора Басак Гюлер вместе с коллегами разработала метод под названием source free unlearning. Он не требует исходных данных и при этом статистически гарантирует удаление нежелательной информации из модели.
Идея основана на использовании суррогатного датасета и метода одношагового обновления Ньютона. Чтобы исключить возможность восстановления запрещённой информации, исследователи добавляют в модель строго рассчитанное количество случайного шума.
Эксперименты показали, что такой подход обеспечивает результат, сопоставимый с полным переобучением, но при значительно меньших вычислительных затратах.
Авторы опубликовали статью «A Certified Unlearning Approach without Access to Source Data» , где подробно описали технологию.
Пока что метод тестировался в основном на простых моделях-классификаторах. Для больших языковых моделей, которые лежат в основе популярных чат-сервисов и становятся объектом судебных разбирательств, ещё предстоит адаптация.
«Мы не утверждаем, что решили все проблемы», — подчеркнула Гюлер. По её словам, разработка касается лишь одной части сложной задачи.
Следующий шаг — изучение того, как правильно проектировать суррогатные датасеты. «Нужно идти шаг за шагом. Это только начало», — добавила исследователь.