
Google I/O 2024 начнется чуть более чем через сутки, и перед мероприятием Google продемонстрировала весьма впечатляющий новый прототип разговорного Gemini в действии, который, похоже, использует видео в реальном времени.
На сегодняшний день ИИ-чат-боты в основном ориентировались на текстовые и основанные на изображениях запросы, но мечта об этих мультимодальных помощниках гораздо больше. В новой демонстрации Google показывает новую версию Gemini, которая, предположительно, будет более подробно представлена во время завтрашней основной презентации.
Эта демонстрация, снятая, по-видимому, во время подготовки к I/O, показывает Gemini на Pixel, использующий видео в реальном времени вместе с голосовыми подсказками для предоставления информации.
Gemini задают вопрос «что, по-твоему, здесь происходит?», на что он правильно отвечает, что видит сцену, готовящуюся к крупному мероприятию. Затем Gemini предлагает вопрос: «Есть ли что-нибудь, что привлекло ваше внимание?», что естественно продвигает разговор вперед. Когда его спрашивают о буквах на экране, Gemini отвечает, что они предназначены для Google I/O, и дает краткое описание мероприятия.
В целом демонстрация весьма впечатляет не только благодаря мультимодальному использованию голоса и видео в подсказках, но и тому, насколько естественно ведется разговор.
Тем не менее, стоит отметить, что Google ранее показывала очень похожую демонстрацию разговорного Gemini, которая позже была раскрыта как слишком хорошая, чтобы быть правдой. Неясно, происходит ли то же самое здесь, но пользовательский интерфейс, показанный на экране, ясно дает понять, что используется видео, и Google заявляет, что это «прототип».
Вполне очевидно, почему Google выпустила этот тизер сегодня. Видео было загружено в Twitter/X менее чем за час до мероприятия OpenAI, где ChatGPT получил ту же функциональность, что и Google, причем бесплатно.
Оставайтесь с нами для полного освещения Google I/O на этой неделе от 9to5Google, где мы ожидаем множество новых анонсов, связанных с Gemini.