Синтезаторы речи могут провести ваше ухо… но не мозг.

Компьютерные голоса уже звучат почти везде: навигаторы подсказывают поворот, голосовые помощники отвечают на вопросы, автоинформаторы объявляют станции и номера очереди. Иногда синтезированная речь кажется почти человеческой, иногда сразу выдаёт машину. Новое исследование Института эмпирической эстетики имени Макса Планка во Франкфурте показывает: ощущение естественности зависит не только от качества самого голоса. Важны интонация, смысл фразы и даже то, понимает ли слушатель язык.
Исследователи проверяли, как люди отличают живую речь от синтезированной. Для эксперимента подготовили 16 коротких немецких предложений, например фразу: «Мальчик дал отцу шляпу». Затем каждую фразу изменили тремя способами: переставили слова, заменили часть слов псевдословами с похожим звучанием или совместили оба приёма. В итоге у каждого предложения появилось четыре версии: нормальная, с нарушенным порядком слов, с бессмысленными похожими словами и смешанная.
Все варианты записали восемь живых дикторов и восемь систем преобразования текста в речь. Так исследователи могли сравнить два слоя восприятия: как на оценку влияет сам звук голоса и как работает содержание фразы, когда речь остаётся понятной или намеренно ломается.
В первом эксперименте участвовали 40 носителей немецкого языка. Они слушали записи и оценивали, насколько человеческим кажется голос. В среднем синтезированная речь набирала меньше баллов, чем записи реальных людей. Акустический анализ подтвердил, что разница не сводилась к личному впечатлению слушателей: человеческие и компьютерные голоса действительно отличались по измеримым параметрам.
Главными признаками оказались тембр и интонация. Тембр можно понимать как окраску голоса, благодаря которой два человека звучат по-разному даже на одной высоте и громкости. Интонация показывает, как голос движется внутри фразы: где поднимается, где падает, как расставляет ударения и паузы. Именно эти детали помогают мозгу решить, перед ним живой человек или синтезатор речи.
Но звук - только часть истории. Участники хуже воспринимали как человеческие те фразы, где был нарушен порядок слов или появились псевдослова. Такой эффект возникал и для живых дикторов, и для компьютерных голосов. Если фраза звучала странно по смыслу или грамматике, сам голос тоже казался менее естественным.
Второй эксперимент показал, почему это важно. В нём участвовали три группы: 40 носителей немецкого, 40 носителей испанского и 40 носителей турецкого языка. Испаноязычные и туркоязычные участники не знали немецкого, поэтому не могли оценить, нормальная перед ними фраза или испорченная. Для них содержание почти не влияло на ощущение естественности голоса.
При этом участники без знания немецкого всё равно в целом отличали живую речь от искусственной. Но синтезированные голоса казались им более похожими на человеческие, чем носителям немецкого. Получается, понимание языка делает слушателя строже: мозг оценивает не только акустику, но и смысл, грамматику, привычность слов и порядок внутри фразы.
Исследование также указало на возрастной фактор. В предыдущих и нынешних экспериментах пожилые участники чаще воспринимали компьютерные голоса как более человеческие, чем молодые слушатели. Учёные пока не делают окончательных выводов и планируют отдельно проверить, почему возраст меняет восприятие синтезированной речи.
Работа помогает понять, почему голосовой помощник может звучать убедительно в одной ситуации и резко «ломаться» в другой. Даже хорошо сгенерированный голос теряет естественность, если фраза построена неуклюже, ударение падает не туда или слушатель слишком хорошо чувствует язык. Для разработчиков голосовых интерфейсов это означает простую вещь: мало сделать приятный тембр. Синтезированная речь должна говорить правильно, связно и с интонацией, которая совпадает с смыслом.