ElevenLabs официально украла все шумы мира, включая ваш смех. Теперь каждый вздох зафиксирован с тайм-меткой и доступен в API

ElevenLabs официально украла все шумы мира, включая ваш смех. Теперь каждый вздох зафиксирован с тайм-меткой и доступен в API

Русский, испанский и норвежский — первые в списке языков с "исключительной точностью" распознавания.

image

Разработчики ElevenLabs опубликовали обновлённые сведения о технологиях для преобразования речи в текст, представив две модели Scribe v1 и Scribe v2 Realtime, а также уточнённые тарифы, технические параметры и ограничения. Обновление охватывает точность распознавания, возможности работы с длительными записями, поддержку языков и характеристики обработки аудиофайлов.

Scribe v1 ориентирована на высокоточное распознавание. Она способна анализировать записи с участием до 32 говорящих, фиксировать временные метки для каждого слова и определять звуковые события вроде смеха или аплодисментов. Модель поддерживает 99 языков, а также позволяет восстановить структуру аудио за счёт подробной разметки, включающей последовательность слов, интервалы между ними и идентификацию говорящих. В документе отмечается, что Scribe v1 предназначена для ситуаций, где приоритетом является качество транскрибации, а не минимальная задержка.

Scribe v2 Realtime разработана для систем, работающих в режиме живого аудиопотока. Задержка около 150 миллисекунд делает модель применимой в голосовых интерфейсах, службах поддержки и других решениях, где важно синхронное взаимодействие. Поддержка языков совпадает с Scribe v1, но архитектура оптимизирована под постоянный поток поступающих данных. В документации указано, что функциональность этой модели будет расширяться.

Обновление касается и тарифных планов. Для Scribe v1 предусмотрены уровни от бесплатного до корпоративного, различающиеся числом включённых часов и стоимостью дополнительной обработки. У Scribe v2 Realtime структура тарифов аналогична, но рассчитана с учётом непрерывной нагрузки. Версия, предназначенная для работы через интерфейс платформы, имеет отдельную ценовую сетку с другим расчётом стоимости часа.

Дополнительно изменена система параллельной обработки. Записи длительностью более восьми минут автоматически делятся на сегменты и обрабатываются одновременно. Максимальное число сегментов составляет четыре. Документация приводит формулу, по которой определяется уровень параллельности в зависимости от длины аудио. Для Scribe v2 Realtime действует отдельная схема ограничений.

Отдельный раздел посвящён поддерживаемым языкам. Приведена разбивка по уровню точности на основе показателя ошибок распознавания. Указаны языки с минимальным уровнем ошибок вроде русского, испанского и немецкого, а также группы, в которых точность ниже из-за фонетических особенностей или ограниченности обучающих корпусов.

Перечень совместимых форматов включает популярные аудиостандарты вроде AAC, MP3, Opus, WAV и FLAC, а также видеоформаты наподобие MP4, Matroska, WebM и других. Максимальный размер файла составляет 3 гигабайт, а длительность одной записи может достигать десяти часов. Поддерживается многоканальный режим, при котором каждый канал анализируется отдельно и получает собственный идентификатор говорящего.

В документации также указана возможность использования вебхуков для получения результатов асинхронной обработки. Пользователи могут подключать транскрибацию к собственным сервисам через API или интерфейс. Для организаций, работающих с данными, подпадающими под требования HIPAA, предусмотрена опция заключения дополнительного соглашения.