«Gemini Live» позволяет общаться с Gemini, пока Google демонстрирует «Project Astra» на очках

На конференции I/O 2024 Google анонсировала Gemini Live — функцию для общения с Gemini в мобильном приложении. Вскоре она будет дополнена возможностями видеосвязи в рамках «Project Astra».

Gemini Live

При запуске из значка голоса в приложении Gemini на Android и iOS вы получите полноэкранный интерфейс с эффектной звуковой волной. Это позволит вести двусторонний диалог, а Gemini будет давать краткие ответы.

Вы можете говорить в своем темпе, Google будет подстраиваться, и вы сможете прервать Gemini во время ответа, чтобы добавить новую информацию или попросить разъяснений. По сравнению с текущей версией, на выбор доступно 10 различных голосов.

Представьте, что вы готовитесь к собеседованию или репетируете важную речь: просто включите Live и попросите Gemini помочь вам подготовиться. Gemini предложит навыки, которые вы можете подчеркнуть, говоря с потенциальным работодателем, или советы по публичным выступлениям, чтобы успокоить нервы перед выходом на подиум.

Функция будет доступна для подписчиков Gemini Advanced и появится в ближайшие месяцы. А пока:

Реклама — прокрутите вниз для просмотра контента

Позже в этом году вы сможете использовать камеру при включении Live, что откроет возможности для обсуждения того, что вы видите вокруг.

Это часть добавления возможностей Project Astra к Gemini.

Project Astra

Заглядывая в будущее, Google DeepMind продемонстрировала Project Astra и его цель — создать универсального ИИ-агента, который будет полезен в повседневной жизни, рассуждая в реальном времени и быстро реагируя.

Чтобы быть по-настоящему полезным, агент должен понимать и реагировать на сложный и динамичный мир так же, как и люди, — воспринимать и запоминать увиденное и услышанное, чтобы понимать контекст и предпринимать действия. Он также должен быть проактивным, обучаемым и персонализированным, чтобы пользователи могли общаться с ним естественно, без задержек.

Демонстрация Astra, которую показал Google, — однократная запись в реальном времени — направила телефон на объекты, в то время как человек отдавал команды или задавал вопросы, а Gemini в режиме почти реального времени распознавал, что находится перед ним. Вы можете показать ему вид города и спросить, в каком вы районе, или задать вопрос о коде.

Это основано на режиме Gemini 1.5 Pro и «других моделях, специфичных для задач». Google заявляет, что он «разработан для более быстрой обработки информации путем непрерывного кодирования видеокадров», а сокращение времени ответа до «чего-то разговорного» является «сложной инженерной задачей».

…объединяя видео и голосовой ввод во временную шкалу событий и кэшируя эту информацию для эффективного извлечения.

Еще более впечатляющим было то, как Google продемонстрировал Gemini Live на умных очках, с результатами, наложенными на ваше зрение. Похоже, что это те же очки для перевода, прототип которых был показан на I/O 2022.