Google обновляет Search Live с Gemini 2.5 Flash Native Audio

Google сегодня анонсировал последнюю версию Gemini 2.5 Flash Native Audio. Помимо Google Translate для перевода в реальном времени через наушники, функция Search Live в режиме AI также получит преимущества от обновлений этой модели.

Как и в Gemini Live в прошлом месяце, ответы Search Live теперь станут «более плавными и выразительными, чем когда-либо прежде». Это включает более естественное звучание голосов и возможность замедлить ответ, просто попросив об этом.

Gemini 2.5 Flash Native Audio будет развернут в течение следующей недели для всех пользователей Search Live (Android + iOS) в США.

Сегодняшние обновления также доступны сторонним разработчикам, создающим голосовых помощников в реальном времени. По сравнению с предыдущей версией, есть три улучшения:


  • Более точное вызов функций: Мы повысили надежность модели при вызове внешних функций. Теперь она может более точно определять, когда необходимо получить информацию в реальном времени во время разговора, и беспрепятственно интегрировать эти данные обратно в аудиоответ, не нарушая ход беседы.
  • Надежное следование инструкциям: Модель теперь лучше справляется со сложными инструкциями, что приводит к повышению удовлетворенности пользователей полнотой контента. С показателем соблюдения инструкций разработчика в 90 % (по сравнению с 84 %) она предоставляет более надежные результаты.
  • Более плавные разговоры: Мы достигли значительных успехов в качестве многоходовых бесед. Gemini 2.5 Flash Native Audio может более эффективно извлекать контекст из предыдущих реплик, создавая более связные разговоры.

Другое обновление — поддержка перевода речи в речь в реальном времени. Как видно из сегодняшнего обновления Google Translate, Gemini может переводить «между двумя языками в реальном времени, автоматически переключая выходной язык в зависимости от того, кто говорит».

Например, если вы говорите по-английски и хотите пообщаться с носителем хинди, вы будете слышать английский перевод в реальном времени в своих наушниках, а ваш телефон будет транслировать хинди, когда вы закончите говорить.

Примечательно, что полученный перевод сохраняет интонацию, темп и высоту голоса говорящего, одновременно отфильтровывая фоновый шум. Он поддерживает автоматическое определение языка и многоязычный ввод.

Поддерживается более 70 языков и 2000 языковых пар за счет «объединения мировых знаний и многоязычных возможностей модели Gemini с ее возможностями нативного аудио».