Живой перевод в наушниках, умные диалоги и 70 языков. Google обновила голосовую модель Gemini 2.5 Flash Native Audio

leer en español

4753
Живой перевод в наушниках, умные диалоги и 70 языков. Google обновила голосовую модель Gemini 2.5 Flash Native Audio

Google рассказала, как новый Gemini работает в живом диалоге между двумя людьми.

image

Голосовые помощники постепенно перестают звучать как бездушные автоответчики. Google обновила звуковую модель Gemini 2.5 Flash Native Audio: теперь модель ведёт более живые диалоги, лучше понимает сложные просьбы и переводит речь почти в реальном времени прямо через наушники.

Новая версия Gemini 2.5 Flash Native Audio уже доступна в сервисах Google, включая Google AI Studio и Vertex AI. Модель также начала появляться в Gemini Live и Search Live. Для поиска такая возможность стала новой, поскольку живое звуковое общение раньше не поддерживало столь естественный формат ответа. Пользователь сможет обсуждать идеи с Gemini голосом, получать помощь во время поиска или создавать голосовых помощников, которые поддерживают клиентов.

Google улучшила модель сразу в нескольких направлениях. Gemini теперь надёжнее вызывает внешние функции, когда в разговоре нужно получить свежие данные, и затем встраивает найденную информацию в голосовой ответ без резкого сбоя диалога. В тесте ComplexFuncBench Audio, где проверяют многошаговую работу с разными условиями, модель набрала 71,5%.

Сильнее стала и работа с инструкциями. По данным Google, Gemini 2.5 Flash Native Audio теперь выполняет указания разработчиков в 90% случаев против 84% ранее. Компания также заявляет, что модель ведёт более плавные многошаговые диалоги – лучше помнит контекст предыдущих реплик и строит разговор связнее.

Отдельно Google обновила перевод речи. Компания запускает в приложении Google Переводчик бета-версию живого перевода для наушников. Функция передаёт речь с одного языка на другой потоково и старается сохранить интонацию, темп и высоту голоса говорящего, чтобы перевод звучал естественнее.

Система поддерживает более 70 языков и около 2000 языковых пар. Gemini может слушать несколько языков в рамках одной сессии, автоматически определять язык говорящего и начинать перевод без ручной настройки. Для диалога между двумя людьми модель сама переключает язык вывода в зависимости от того, кто говорит. Например, англоговорящий пользователь сможет слышать перевод собеседника на английский в наушниках, а телефон после его ответа озвучит перевод на хинди.

Google отдельно указывает на устойчивость к шуму. Модель должна фильтровать окружающие звуки, чтобы перевод работал не только в тихой комнате, но и на улице или в других шумных местах.

Бета-версия живого перевода с сегодняшнего дня разворачивается в приложении Google Переводчик на Android в США, Мексике и Индии. Для работы нужно подключить наушники к устройству и нажать Live translate. Поддержка iOS и запуск в других регионах появятся позже. В 2026 году Google планирует перенести живой перевод речи и в Gemini API.

Для разработчиков Gemini 2.5 Flash Native Audio уже доступна в Vertex AI, а в Gemini API модель пока предлагается в предварительном режиме. Текстово-речевые модели Gemini 2.5 Flash и Gemini 2.5 Pro также доступны через Gemini API в Google AI Studio.