От виртуального Папы Римского до фейковых новостей: разбор возможностей дипфейков

12:58 / 22 сентября, 2023

Дипфейки продолжают усиливать свое влияние в цифровом мире, и 2023 год не стал исключением. С каждым днем определить подделку становится всё более затруднительным, что акцентирует внимание на вопросах этичности и безопасности в современном обществе. В этой статье MTS AI рассказывает, когда и как появились первые дипфейки, для чего они применяются и как их распознать.

За последние 10 с небольшим лет количество этических нарушений, связанных с искусственным интеллектом, выросло в 26 раз, говорится в 2023 AI Index Report.

Технология дипфейков уже достигла того уровня, когда распознать сгенерированные нейросетью изображения становится практически невозможно. Растет и многообразие самих дипфейков: если еще несколько лет назад так называли только замену лица в видео, то со временем в категорию дипфейков добавились полностью сгенерированные, но правдоподобные фотографии и видео, а также имитация голоса и оригинального текста (например, письмо в стиле другого человека или фейковая новость).

Рост интереса к дипфейкам совпал с развитием генеративных нейросетей, которые способны создавать реалистичные изображения по текстовому запросу пользователя. Теперь, чтобы сгенерировать дипфейк, даже необязательно специально обучать нейросеть - достаточно точно сформулировать запрос.

Порой нейросетям получается обмануть даже авторитетные СМИ. В марте они начали активно распространять фотографии папы Римского в белом пуховике, и лишь спустя некоторое время выяснилось, что эти кадры были сгенерированы пользователем Reddit с помощью нейросети Midjourney.

О том, как не стать жертвой злоумышленников и проверять подлинность изображений, рассуждали спикеры AI-трека на форуме МТС TrueTech Day.

Первые дипфейки

Предтечей современных ИИ-моделей для создания дипфейков считается генеративно-состязательная нейросеть (GAN). Впервые эту модель представили в 2014 году. В ее основе лежал генератор случайных реалистичных изображений и дискриминатор, отделяющий фейковые материалы от подлинных. При этом в GAN не было возможности ввести свой запрос для создания изображения - нейросеть сама рисовала случайную картину на основе заложенных в нее образцов.

Изначально эта нейросеть могла моделировать только небольшие изображения лиц в плохом качестве. Однако всего за пять лет GAN-модели научились генерировать реалистичные изображения в 4K, и некоторые из них уже было трудно отличить от реальной фотографии. В 2019 году развитие модели зашло в тупик, потому что такие нейросети плохо справлялись с деталями и общей композицией изображения.

В 2021 году компания Open AI опубликовала первую версию нейросети Dall-E, которая генерировала фотореалистичные изображения по запросу на основе диффузионных моделей. После этого ИИ-рынок наполнился большим количеством аналогичных проектов, и в 2022 году Midjourney опубликовал в открытом доступе свою бета-версию.

Считается, что первые дипфейки появились в 2017 году, когда на Reddit опубликовали порнографические ролики с лицами знаменитостей. Их выложил пользователь с никнеймом Deepfakes, поэтому это слово и стало обозначением подобных видео. После этого популярность технологии значительно возросла, и вскоре в сети появились приложения вроде ReFace, которые позволяют без труда заменить лицо на фотографии.

Сейчас разработчики также развивают проекты, которые позволяют разместить на сгенерированном изображении конкретный объект или человека. Например, пользователь может загрузить фотографии своего кота и задать текстовый вопрос, в каких условиях он появится на изображении.

Как применяются дипфейки

Сегодня наиболее распространены следующие виды дипфейков с человеческими лицами:

перенос лица или его выражения;
изменение атрибутов (добавить очки или макияж, поменять цвет кожи или прическу)
генерация лиц несуществующих людей;
синхронизация губ на видео с аудиозаписью голоса.

У каждого из этих видов дипфейков есть как позитивные, так и негативные сценарии использования. Например, перенос лица и изменение атрибутов зачастую применяют в развлекательных и информационных приложениях - например. чтобы “примерить” новый наряд или узнать, как человек будет выглядеть в старости. Эти функции можно использовать и для анонимизации фото и видео, искажая свою внешность.

Также дипфейки активно использует бизнес: образы реальных людей можно разместить в рекламе и без их личного присутствия на съемках. При этом компании могут и вовсе сэкономить на актерах, сгенерировав для видео образ несуществующего человека, которому не придется платить. Технология синхронизации губ актуальна при локализации фильмов, чтобы дубляж совпадал с действиями актеров.

Однако всеми этими видами дипфейков пользуются мошенники. В частности, с помощью нейросетей они создают компрометирующий контент, который можно использовать для шантажа и вымогательства. С помощью нейросетей зломышленники также активно манипулируют общественным мнением. Пользователи сети не всегда могут оперативно определить достоверность того или иного контента, и они могут поверить фейковому обращению звезды или политика, призывающего к противоправным действиям или вложиться в криптовалюту.

Одним из наиболее критичных для бизнеса вариантов использования дипфейков считается обход системы аутентификации. Во время онлайн-звонка злоумышленник может сымитировать другого человека, синтезировав его голос и использовав фейковое лицо жертвы. Таким образом в рамках целенаправленной атаки на человека злоумышленники могут, к примеру, подтвердить по телефону банковскую операцию.

Как распознать дипфейк?

Одна из ключевых проблем качественного распознавания дипфейков - регулярное появление новых алгоритмов создания фейковых изображений. Чтобы разработчики смогли выявлять такие дипфейки, необходимо оперативно заносить информацию о новых алгоритмах в детекторы, однако в таком случае мошенники всегда будут на шаг впереди. Кроме того, текущие модели для определения дипфейков показывают хорошую точность распознавания только при больших объемах дата-сетов.

По мнению экспертов, одно из наиболее эффективных решений для выявления дипфейков - сопоставить движения губ человека в кадре со звуками, которые он произносит в своей речи. Для этого можно использовать нейросеть, обученную читать слова человека по губам. По аналитическим оценкам, точность распознавания дипфейков таким способом варьируется от от 73,5% до 97,6%. Такой подход считается более устойчивым к различным видам атак, чем другие способы определения дипфейков.

Еще один вариант идентификации дипфейка - разложить видео по кадрам и найти изменения в деталях между ними. Сейчас нейросети формируют изображения для дипфейков покадрово, поэтому среди них могут быть незначительные различия, которые можно заметить при детальном рассмотрении. Например, это может быть изменение текстуры кожи у человека в кадре.

Эксперты рекомендуют пользователям заранее защищать свои изображения, чтобы злоумышленники не могли их использовать для создания дипфейков. Для этого можно добавить на фотографию специальные невидимые шумы, благодаря которым при попытке скопировать изображение оно будет отображаться в искаженном виде (например, в виде синего квадрата). И напротив, добавить элементы на защищенные фотографии также не получится. Против каждого вида атак существуют свои шумы, их можно использовать одновременно для полноценной защиты от всех видов угроз.

Ряд компаний сейчас работает над тем, чтобы накладывать на фотографии в момент съемки специальные невидимые метки. По ним можно будет определить, искажена ли фотография, потому что при ее изменении метка также будет нарушена.

Можно ли распознать текстовые фейки?

Первые методы поиска фейковых текстовых материалов появились еще за несколько лет до развития GPT - их применяли для выявления фейк-ньюс в медиапространстве. В 2016 году исследователи предложили использовать детекторы на основе ИИ, обучив нейросети на образцах настоящих новостей и материалов.

Еще один вариант выявления текстовых фейков - поиск статистических аномалий в написанных нейросетями материалах. С точки зрения стилистики и построения фраз, тексты, написанные человеком и ИИ, будут сильно различаться.

Наиболее эффективный способ поиска текстов, написанных нейросетью, могут предложить сами разработчики этих ИИ-моделей. Нейросети могли бы добавлять в написанные ими материалы специальный водяной знак - набор слов или символов в определенном порядке. При этом такие знаки могут расставлены в тексте так, чтобы они не были заметны обычному пользователю. По этому водяному знаку разработчики могут определять, написан ли текст их нейросетью. Соответственно, они могут создать детектор текстовых фейков и продавать услуги по их распознаванию. Сейчас разработчики нейросетей ведут исследования в этом направлении.

Однако эти методы все еще недостаточно эффективны для защиты от наиболее современных видов атак. Например, применение парафразера для перестановки слов и предложений в сгенерированном тексте позволяет обойти статистические методы детекции текста, также он может корректно перенести водяной знак нейросетевой модели на несгенерированный текст, тем самым поставив под сомнение его авторство.

Хватит тратить время на ручные проверки и «накликивание»!

12 февраля на бесплатном вебинаре Security Vision покажем, как SGRC-подход создаёт «живую» безопасность. Меняем формальный контроль на стратегию вместе.

Регистрируйтесь!

Реклама. 18+ ООО «Интеллектуальная безопасность», ИНН 7719435412

Это только демо-версия будущего...