17 Марта, 2019

Извлечение аудио из визуальной информации

Владимир Безмалый

Алгоритм восстанавливает речь по вибрациям мешка с картофельными чипсами, снятого через звуконепроницаемое стекло.

Исследователи из Массачусетского технологического института, Microsoft и Adobe разработали алгоритм, который может реконструировать звуковой сигнал, анализируя мельчайшие колебания объектов, изображенных на видео. В одном из экспериментов они смогли восстановить разборчивую речь по вибрациям мешка с картофельными чипсами, сфотографированного с 15 футов через звуконепроницаемое стекло.

В других экспериментах они извлекали полезные аудиосигналы из видео с алюминиевой фольгой, с поверхности стакана воды и даже с листьев комнатного растения. Исследователи представят свои результаты в статье на Siggraph, главной конференции по компьютерной графике этого года.

«Когда звук попадает на объект, он вызывает вибрацию объекта», — говорит Абе Дэвис, аспирант по электротехнике и информатике в Массачусетском технологическом институте и первый автор новой статьи. «Движение этой вибрации создает очень тонкий визуальный сигнал, который обычно невидим невооруженным глазом. Люди не осознавали, что эта информация была там ».

К Дэвису на бумаге Siggraph присоединяются Фредо Дюран и Билл Фриман, оба профессора Массачусетского технологического института и инженерии; Нил Вадхва, аспирант группы Фримена; Майкл Рубинштейн из Microsoft Research, защитивший докторскую диссертацию у Фримена; и Гаутам Майсур из Adobe Research.

Реконструкция аудио из видео требует, чтобы частота отсчетов видео — количество кадров видео, захваченных в секунду — была выше, чем частота аудиосигнала. В некоторых из своих экспериментов исследователи использовали высокоскоростную камеру, которая снимала от 2000 до 6000 кадров в секунду. Это намного быстрее, чем 60 кадров в секунду, что возможно для некоторых смартфонов, но намного ниже частоты кадров лучших коммерческих высокоскоростных камер, которые могут достигать 100 000 кадров в секунду.

Товарное оборудование

В других экспериментах, однако, они использовали обычную цифровую камеру. Из-за особенностей конструкции датчиков большинства камер исследователи смогли вывести информацию о высокочастотных вибрациях даже из видео, записанного со скоростью 60 кадров в секунду. Хотя эта звуковая реконструкция не была такой точной, как у высокоскоростной камеры, она все же может быть достаточно хорошей, чтобы определить пол говорящего в комнате; количество ораторов; и даже, учитывая достаточно точную информацию об акустических свойствах голосов говорящих, их идентичности.

Техника исследователей имеет очевидные применения в правоохранительной и судебной экспертизе, но Дэвис с большим энтузиазмом относится к возможности того, что он называет «новым видом изображения».

«Мы восстанавливаем звуки от объектов», — говорит он. «Это дает нам много информации о звуке, который происходит вокруг объекта, но также дает нам много информации о самом объекте, потому что разные объекты будут реагировать на звук по-разному». В текущей работе, исследователи начали пытаться определить материальные и структурные свойства объектов по их видимой реакции на короткие звуковые импульсы.

В экспериментах, о которых сообщалось в статье Siggraph, исследователи также измерили механические свойства снимаемых объектов и определили, что измеряемые ими движения составляли около одной десятой микрометра. Это соответствует пяти тысячным доли пикселя в крупном изображении, но из изменения значения цвета одного пикселя с течением времени можно вывести движения, меньшие, чем пиксель.

Предположим, например, что изображение имеет четкую границу между двумя областями: все на одной стороне границы синее; все на другом красном. Но на самой границе датчик камеры получает как красный, так и синий свет, поэтому он усредняет их, чтобы получить фиолетовый цвет. Если через последовательные кадры видео синяя область вторгается в красную область — даже меньше ширины пикселя — фиолетовый станет немного голубее. Этот сдвиг цвета содержит информацию о степени посягательства.

Положить его вместе

Однако некоторые границы изображения нечеткие, чем один пиксель по ширине. Таким образом, исследователи позаимствовали метод из предыдущей работы над алгоритмами, которые усиливают незначительные вариации видео, делая видимые ранее не обнаруживаемые движения: дыхание младенца в отделении для новорожденных в больнице или пульс на запястье субъекта.

Этот метод пропускает последовательные кадры видео через батарею фильтров изображений, которые используются для измерения флуктуаций, таких как изменение цветовых значений на границах, в нескольких различных ориентациях — скажем, в горизонтальной, вертикальной и диагональной — и в нескольких различных масштабах.

Исследователи разработали алгоритм, который комбинирует выходные данные фильтров, чтобы вывести движения объекта в целом, когда он поражен звуковыми волнами. Разные края объекта могут двигаться в разных направлениях, поэтому алгоритм сначала выравнивает все измерения так, чтобы они не отменяли друг друга. И это придает больший вес измерениям, сделанным на очень четких краях — четкие границы между различными значениями цвета.

Исследователи также разработали вариацию алгоритма анализа обычного видео. Датчик цифровой камеры состоит из множества фотоприемников — их миллионы даже в обычных устройствах. Как выясняется, проектирование сенсорного оборудования обходится дешевле, так чтобы оно считывало измерения по одному ряду фотодетекторов за раз. Обычно это не проблема, но с быстродвижущимися объектами это может привести к нечетным визуальным артефактам. Объект — скажем, ротор вертолета — может фактически обнаруживаться между показаниями одного ряда и показаниями следующего.

Для Дэвиса и его коллег эта ошибка — особенность. Незначительные искажения краев объектов в обычном видео, хотя они не видны невооруженным глазом, содержат информацию о высокочастотной вибрации объектов. И этой информации достаточно, чтобы получить мутный, но потенциально полезный звуковой сигнал.

«Это новое и освежающее. Это такие вещи, которые ни одна другая группа не сделала бы сейчас», — говорит Алексей Эфрос, доцент кафедры электротехники и компьютерных наук в Калифорнийском университете в Беркли. «Мы ученые, и иногда мы смотрим эти фильмы, как Джеймс Бонд, и думаем: «Это голливудская театральная постановка. Это невозможно сделать. Это нелепо.’ И вдруг у вас это есть. Это полностью из какого-то голливудского триллера. Вы знаете, что убийца признал свою вину, потому что есть запись слежки за его вибрирующим мешком с картофельными чипсами».

Эфрос согласен с тем, что характеристика свойств материала может быть плодотворным применением технологии. Но он добавляет: «Я уверен, что будут приложения, которые никто не будет ожидать. Я думаю, что отличительной чертой хорошей науки является то, что вы делаете что-то просто потому, что это круто, а потом кто-то оборачивается и использует это для чего-то, что вы никогда не представляли. Это действительно приятно иметь такой творческий материал».

Оригинал