
Google сегодня объявил о выпуске Gemini 3.1 Flash Live как о своей «самой качественной аудио- и голосовой модели на сегодняшний день», которая станет основой для крупных обновлений Gemini Live и Search Live.
Модель, доступная в предварительной версии через Gemini Live API в Google AI Studio, «более эффективно распознает акустические нюансы, такие как высота тона и темп», и предлагает меньшую задержку по сравнению с 2.5 Flash Native Audio. Она лучше «различает релевантную речь от фоновых звуков, таких как шум транспорта или телевизора». В частности, Gemini 3.1 Flash Live «более эффективно отфильтровывает фоновый шум».
Она также поддерживает более 90 языков для многомодальных диалогов в реальном времени. Среди других улучшений:
- «Мы значительно улучшили способность модели вызывать внешние инструменты и предоставлять информацию во время живых разговоров».
- «Улучшенное следование инструкциям: соблюдение сложных системных инструкций было значительно повышено. Ваш агент будет оставаться в рамках своих операционных ограничений, даже когда разговоры принимают неожиданный оборот».
В Gemini Live на Android и iOS 3.1 Flash Live обеспечивает более быстрые ответы «с меньшим количеством неловких пауз» и может «следить за ходом вашего разговора вдвое дольше». Это означает, что «ваша нить рассуждений будет сохранена во время более длительных мозговых штурмов». Gemini Live теперь «динамически регулирует длину и тон ответа, чтобы соответствовать моменту».
Google также использует Gemini 3.1 Flash Live для глобального запуска Search Live в более чем 200 странах или во всех языках/регионах, где в настоящее время доступен AI Mode. Это включает аудио- и видеовозможности (Google Lens) для двустороннего диалога с Google Поиском.


