Молчание — единственная защита. Спасти голос от клонирования больше нельзя — ИИ научился "отмывать" любые помехи

Молчание — единственная защита. Спасти голос от клонирования больше нельзя — ИИ научился "отмывать" любые помехи

Алгоритм Diffusion-Bridge доказал: защитный шум не мешает создавать качественные дипфейки.

image

Исследователи изучили, насколько надежны современные способы защиты от клонирования голоса, и пришли к выводу, который вряд ли обрадует разработчиков таких решений. Речь идет о технологиях, добавляющих в аудиозаписи специальные искажения. Они должны скрывать индивидуальные особенности речи, но при этом оставлять текст понятным для слушателя. Идея заключалась в том, что такой файл будет бесполезен для злоумышленников. Практика показала, что это не всегда так.

Авторы работы выяснили, что атакующие могут очищать подобные записи с помощью продвинутых алгоритмов и возвращать голосу характерные акустические черты. После этого звук снова можно использовать для клонирования. При этом многие защитные методы изначально создавались для систем распознавания речи, а не для сценариев, связанных с проверкой личности говорящего или генерацией синтетических голосов. Из-за этого они плохо справляются с маскировкой тонких деталей, по которым и определяется конкретный человек.

Чтобы наглядно показать уязвимость таких подходов, исследователи разработали собственную систему под названием Diffusion-Bridge, также известную как VocalBridge. Она восстанавливает очищенную речь не напрямую из аудиосигнала, а из его латентного представления в EnCodec. В основе решения лежит диффузионная модель с одномерной архитектурой U-Net, что позволяет обходиться без текстовой расшифровки и при этом сохранять признаки, важные для идентификации голоса.

Также была предложена модификация с фонемной подсказкой на базе Whisper. Она дает модели временные ориентиры, не требуя готовых транскриптов. В ходе экспериментов этот подход стабильно превосходил существующие методы, успешно восстанавливая голоса, пригодные для клонирования, даже из защищенных записей.

В итоге авторы приходят к выводу, что нынешние схемы защиты, основанные на добавлении искажений в аудио, остаются уязвимыми перед адаптивными атаками. По мере развития технологий синтеза речи и систем проверки диктора подходы к защите придется пересматривать, иначе риск злоупотреблений с клонированием голоса будет только усиливаться.