Мона Лиза читает рэп: ИИ-модель VASA-1 создает дипфейки по щелчку пальцев

14:32 / 19 апреля, 2024 4789

Способности новой технологии одновременно впечатляют и пугают экспертов.

Компания Microsoft продемонстрировала одну из самых впечатляющих и одновременно пугающих разработок в сфере генеративного ИИ — исследовательский проект VASA-1. Эта передовая модель способна оживлять фотографии, тонко передавая при этом эмоции и мимику.

Чтобы сгенерировать видео с помощью VASA-1, достаточно загрузить фотографию человека и аудиозапись с его голосом. Система, используя мощные алгоритмы машинного обучения, создает ролик с разрешением 512 х 512 пикселей и частотой до 40 кадров в секунду, причем практически без задержки.

Поистине впечатляет способность VASA-1 с хирургической точностью синхронизировать движения губ с речью и передавать эмоциональные оттенки голоса через мимику лица и жесты. Разработчики продемонстрировали, как технология оживила Мону Лизу, заставив ее читать рэп голосом Энн Хэтэуэй.

Пользователи могут управлять направлением взгляда виртуального аватара, масштабом изображения, а также задавать необходимые эмоциональные состояния, будь то радость, гнев или удивление.

Когда специалисты Microsoft наглядно показали, на что способна VASA-1, это не могло не вызвать беспокойство. Эксперты предупреждают, что такую технологию можно использовать для создания фейковых, но очень правдоподобных видео — будь то для распространения дезинформации или кражи личных данных.

Однако в Microsoft подчеркивают, что на данном этапе VASA-1 остается исключительно исследовательским проектом и его публичный запуск пока не планируется. «Мы не планируем выпускать онлайн-демо, API, сам продукт или любые связанные с этим сервисы до тех пор, пока не убедимся, что технология будет использоваться ответственно и в соответствии с правовыми нормами», — заявили в компании.

Тем не менее, команда исследователей отмечает и многочисленные положительные аспекты своей разработки. По их мнению, VASA-1 может, например, сделать образование более доступным, помогая создавать качественный учебный видеоконтент. Кроме того, модель может оказаться полезной для людей с ограниченными коммуникативными возможностями, даже в качестве виртуального собеседника.

Несмотря на оптимистичные прогнозы, многие эксперты склонны полагать, что передовые технологии генерации видео, подобные VASA-1, в первую очередь будут использоваться в недобросовестных целях. Предстоит проделать большую работу по созданию надежных регуляторных мер, чтобы избежать злоупотреблений.