
Сегодня компания Google анонсировала Gemini 3.5 Live Translate — свою новейшую модель для синхронного перевода речи в реальном времени.
Эта модель способна распознавать более 70 языков и создавать «плавную, естественно звучащую переведенную речь», сохраняя интонацию, темп и высоту голоса.
В отличие от систем пофразового перевода, которые «ждут, пока говорящий закончит фразу, прежде чем ответить», эта модель генерирует речь непрерывно. Это обеспечивает «бесшовное аудио без неловких пауз, которое отстает от речи говорящего всего на несколько секунд на протяжении всего сеанса».
…Gemini 3.5 Live Translate генерирует речь непрерывно, балансируя между ожиданием контекста для улучшения качества и мгновенным переводом для синхронизации с говорящим.
Gemini 3.5 Live Translate уже начинает появляться в Google Translate на Android и iOS. Нажмите «Live translate» («Синхронный перевод») в левом нижнем углу, используя наушники.
В приложении для Android также появляется новый «режим прослушивания» (listening mode), который позволяет слышать перевод через динамик телефона, если у вас нет под рукой наушников. Вы можете «просто приложить телефон к уху, как во время обычного звонка».
Gemini 3.5 Live Translate также появится в Google Meet. Ранее перевод речи в приложении для видеозвонков поддерживал только пять языков. Поддержка моделью более 70 языков открывает возможность использования «более 2000 языковых комбинаций в одной встрече, что значительно расширяет прежние возможности, ограниченные переводом только с/на английский язык». В веб-версии появилась новая кнопка на панели управления, позволяющая мгновенно запустить перевод речи.
В этом месяце функция становится доступна в рамках «закрытого тестирования для избранных бизнес-клиентов Google Workspace». Более широкое внедрение ожидается позднее в этом году.
Gemini 3.5 Live Translate также доступна в рамках публичного тестирования для разработчиков через Gemini Live API и Google AI Studio.
Что касается безопасности, все сгенерированные аудиозаписи снабжаются цифровым водяным знаком SynthID:
Этот невидимый водяной знак внедряется непосредственно в аудиовыход, гарантируя, что контент, созданный ИИ, останется распознаваемым, что помогает бороться с дезинформацией.