BASE TTS: Amazon создает самую большую модель преобразования текста в речь

16:35 / 19 февраля, 2024

Технология не будет доступна для широкого использования из-за этических соображений.

Команда исследователей искусственного интеллекта из Amazon AGI объявила о разработке крупнейшей на сегодняшний день модели преобразования текста в речь. Под крупнейшей подразумевается модель с наибольшим количеством параметров и обученная на самом большом наборе данных. Исследователи опубликовали статью на сервере препринтов arXiv, в которой описали процесс разработки и обучения модели.

Модели искусственного интеллекта вроде ChatGPT привлекли внимание своей способностью разумно отвечать на вопросы и создавать сложные тексты на человеческом языке. Но ИИ продолжает проникать и в другие сферы применения. В этом новом исследовании ученые пытались улучшить возможности приложения для преобразования текста в речь за счет увеличения количества параметров модели и расширения базы для ее обучения.

Новая модель, названная BIG Adaptive Streamable TTS with Emergent abilities (BASE TTS), содержит 980 миллионов параметров и была обучена на 100 000 часов записей речи (найденных на открытых ресурсах), большая часть которых на английском языке. Также команда предоставила модели примеры произнесения слов и фраз на других языках, чтобы она могла корректно произносить известные выражения при их обнаружении, например «au contraire» или «adios, amigo».

Исследователи из Amazon также тестировали модель на меньших наборах данных, надеясь выявить случаи возникновения так называемых эмерджентных свойств, когда ИИ вдруг начинает демонстрировать более высокий уровень интеллекта. Они обнаружили, что для их приложения такой скачок произошел при использовании среднего по размеру набора данных в 150 миллионов параметров.

Также было отмечено, что скачок затронул множество аспектов языка, таких как способность использовать сложные существительные, выражать эмоции, применять иноязычные слова, паралингвистические средства, знаки препинания и корректно расставлять ударения в вопросительных предложениях.

Команда сообщает, что модель BASE TTS не будет выпущена для широкого использования из-за опасений неэтичного применения. Вместо этого они планируют использовать ее в качестве обучающей с целью улучшения естественного звучания синтезированной речи в приложениях в целом.

Тени в интернете всегда следят за вами

Станьте невидимкой – подключайтесь к нашему каналу.

BASE TTS: Amazon создает самую большую модель преобразования текста в речь

Тени в интернете всегда следят за вами

Новости по теме

OpenELM от Apple: 8 мини ИИ-моделей для смартфонов открывают большие возможности

Thoma Bravo приобрела Darktrace: как сделка на $5,3 млрд отразится на британских технологиях?

Dev Popper: хакеры заманивают в свои сети наивных программистов, ищущих работу

20% энергии солнца в кармане: дроны с бесконечным полетом спешат на помощь

$5,6 млн за технологии: сотрудники Amazon Ring шпионили за 55 000 американцев

Лазер на «Психея» передает данные с расстояния в 140 миллионов миль

Открытые модели в массы: Apple представила OpenELM

Глобальная технологическая гонка: Китай против США

Apple запускает производство серверных чипов для ИИ на 3-нм технологии

BASE TTS: Amazon создает самую большую модель преобразования текста в речь

Тени в интернете всегда следят за вами

Новости по теме

OpenELM от Apple: 8 мини ИИ-моделей для смартфонов открывают большие возможности

Thoma Bravo приобрела Darktrace: как сделка на $5,3 млрд отразится на британских технологиях?

Dev Popper: хакеры заманивают в свои сети наивных программистов, ищущих работу

20% энергии солнца в кармане: дроны с бесконечным полетом спешат на помощь

$5,6 млн за технологии: сотрудники Amazon Ring шпионили за 55 000 американцев

Лазер на «Психея» передает данные с расстояния в 140 миллионов миль

Открытые модели в массы: Apple представила OpenELM

Глобальная технологическая гонка: Китай против США

Apple запускает производство серверных чипов для ИИ на 3-нм технологии

Подпишитесь на email рассылку