Gemini 3.5 Live Translate: голосовой перевод на 70+ языков

Gemini 3.5 Live Translate — новейшая аудиомодель от Google для перевода речи в реальном времени. Она автоматически распознаёт более 70 языков и генерирует плавную, естественно звучащую переведённую речь, сохраняя интонацию, темп и высоту звука говорящих. В отличие от пошаговых систем, которые ждут, пока говорящий закончит, 3.5 Live Translate работает непрерывно: балансирует между ожиданием контекста для улучшения качества и немедленным переводом, чтобы оставаться синхронным с говорящим. С сегодняшнего дня модель доступна во всех продуктах Google: для разработчиков — через Gemini Live API и Google AI Studio, для предприятий — в Google Meet (в режиме приватного просмотра), для всех пользователей — в Google Translate на Android и iOS. Используя Gemini Live API, платформы для разработчиков (Agora, Fishjam, LiveKit, Pipecat и Vision Agents) могут легко создавать и развёртывать приложения для голосового перевода. Например, компания Grab тестирует модель, которая позволит водителям и пассажирам общаться на нескольких языках практически в реальном времени — эти пользователи совершают более 10 миллионов голосовых вызовов в месяц. В Google Meet скоро тоже начнут использовать 3.5 Live Translate — это позволит вести беседы более чем на 2000 языковых комбинациях на одном собрании. Начиная с этого месяца обновление запустят в режиме предварительного просмотра для избранных бизнес-пользователей Google Workspace, а позднее в этом году оно станет доступнее. В приложении Google Translate модель тоже доступна по всему миру — на Android и iOS. Для более плавного перевода можно подключить наушники. На Android появится новый «режим прослушивания»: переведённый звук будет транслироваться прямо в наушник телефона — достаточно поднести устройство к уху, как при обычном звонке. Все аудио, генерируемые моделями, помечены водяными знаками SynthID — они помогают распознавать контент, созданный ИИ, и предотвращать дезинформацию.