Google делает ставку не на голосового помощника для телефона, а на реальный мир

Abner Li | Пятница, 21 июня, 2024, 21:07.

К настоящему моменту наиболее широко используемые помощники позволяли взаимодействовать с телефонами с помощью голосовых команд. Полезность возможности использовать мобильное устройство без помощи рук очевидна.

У 9to5Google есть обновленная рассылка, которая освещает главные новости Google с дополнительными комментариями и другими подробностями. Подпишитесь здесь!

Пик инвестиций Google в этой области пришелся на новый Google Assistant в 2019 году, дебютировавший на Pixel 4. Цель Google заключалась в том, чтобы «позволить вам мгновенно управлять телефоном голосом, работать в нескольких приложениях одновременно и выполнять сложные действия почти без задержек».

Благодаря обработке голоса на устройстве, которая обеспечивала работу этого помощника, компания смело заявляла, что «касание для управления телефоном почти покажется медленным».

Реклама — прокрутите дальше, чтобы увидеть больше контента

К сожалению, эта функция, которая по-прежнему доступна на телефонах Pixel сегодня, требовала от пользователей придерживаться определенной формулировки, а не говорить естественно и автоматически распознавать намерение. Между тем, возможные действия были очень ограничены и не работали со многими приложениями.

Siri в iOS 18 с Apple Intelligence снова делает попытку в этом направлении, причем большие языковые модели (LLM) могут стать ключом к голосовому помощнику, который сможет использовать любые приложения на вашем телефоне.

Google исследует то же самое и вполне может его создать. Однако после I/O 2024 я больше не думаю, что это приоритет компании.

Скорее, Google в конечном итоге хочет создать ИИ-помощника, который будет помогать вам в физическом мире. Идея заключается в том, что большинство ваших вопросов и проблем по-прежнему возникают в реальном мире без цифрового эквивалента.

Ключевым моментом является возможность навести телефон (или умные очки в будущем) на что-то и запросить дополнительную информацию или помощь.

Именно это Google продемонстрировал в рамках Project Astra, который появится в интерактивном опыте Gemini Live, позволяющем вести естественный двусторонний диалог. Ожидается, что Gemini Live выйдет в этом году, сначала появится голосовой аспект, а затем и возможности камеры.

Между тем, так много вашей информации хранится в виде фотографий и видео. Функция Ask Photos на базе Gemini превращает вашу библиотеку в корпус ваших реальных знаний, которые Google может использовать для помощи вам.

Создание снимка информации из реального мира и организация Google — это действительно экономия времени и по своей сути помощь. Один из моих любимых примеров этого из I/O — это то, что не является особенно эффектным. Скоро появятся расширения Gemini для Google Calendar, Keep и Tasks:

…вы сможете делать такие вещи, как сфотографировать школьный учебный план вашего ребенка и попросить Gemini создать запись в календаре для каждого задания, или сфотографировать новый рецепт и добавить его в Keep в виде списка покупок.

Gemini Advanced также получит иммерсивный планировщик путешествий, а примером агентного опыта, который выбрал Google, стало фотографирование купленной обуви для начала процесса возврата. Другим примером было поручение Gemini помочь вам переехать в новый город и внести все необходимые изменения.

Что-то, что может помочь вам ориентироваться в мире, безусловно, кажется более эффектным и впечатляющим, чем помощник, который может перемещаться по вашему телефону, над которым Google вполне может работать. Пользователи Android могут предпочесть обновленный телефонный помощник, и еще неизвестно, насколько полезным будет что-то вроде Astra, но нельзя обвинять Google в отсутствии амбиций.

Заявленная цель Project Astra — создать «универсального ИИ-агента, который может быть действительно полезным в повседневной жизни». Визуальный ввод с камеры, обеспечивающий живой вид на мир, действительно решает проблему, возникшую с момента основания Google: некоторые вопросы и их реальный контекст невозможно легко сформулировать в виде текстового запроса.