BASE TTS: Amazon создает самую большую модель преобразования текста в речь

BASE TTS: Amazon создает самую большую модель преобразования текста в речь

Технология не будет доступна для широкого использования из-за этических соображений.

image

Команда исследователей искусственного интеллекта из Amazon AGI объявила о разработке крупнейшей на сегодняшний день модели преобразования текста в речь. Под крупнейшей подразумевается модель с наибольшим количеством параметров и обученная на самом большом наборе данных. Исследователи опубликовали статью на сервере препринтов arXiv, в которой описали процесс разработки и обучения модели.

Модели искусственного интеллекта вроде ChatGPT привлекли внимание своей способностью разумно отвечать на вопросы и создавать сложные тексты на человеческом языке. Но ИИ продолжает проникать и в другие сферы применения. В этом новом исследовании ученые пытались улучшить возможности приложения для преобразования текста в речь за счет увеличения количества параметров модели и расширения базы для ее обучения.

Новая модель, названная BIG Adaptive Streamable TTS with Emergent abilities (BASE TTS), содержит 980 миллионов параметров и была обучена на 100 000 часов записей речи (найденных на открытых ресурсах), большая часть которых на английском языке. Также команда предоставила модели примеры произнесения слов и фраз на других языках, чтобы она могла корректно произносить известные выражения при их обнаружении, например «au contraire» или «adios, amigo».

Исследователи из Amazon также тестировали модель на меньших наборах данных, надеясь выявить случаи возникновения так называемых эмерджентных свойств, когда ИИ вдруг начинает демонстрировать более высокий уровень интеллекта. Они обнаружили, что для их приложения такой скачок произошел при использовании среднего по размеру набора данных в 150 миллионов параметров.

Также было отмечено, что скачок затронул множество аспектов языка, таких как способность использовать сложные существительные, выражать эмоции, применять иноязычные слова, паралингвистические средства, знаки препинания и корректно расставлять ударения в вопросительных предложениях.

Команда сообщает, что модель BASE TTS не будет выпущена для широкого использования из-за опасений неэтичного применения. Вместо этого они планируют использовать ее в качестве обучающей с целью улучшения естественного звучания синтезированной речи в приложениях в целом.

Тени в интернете всегда следят за вами

Станьте невидимкой – подключайтесь к нашему каналу.