Gemini на Android: будем ли мы больше разговаривать с телефонами в 2026 году?

Одним из того, что я ожидал увидеть больше в 2025 году, было то, как Gemini сможет управлять вашим телефоном Android. Была демонстрация в мае и другая основополагающая работа, но мы еще не знаем полного видения Google.

На мероприятии I/O 2025 в мае Google продемонстрировала последний исследовательский прототип Project Astra, который мог извлекать контент из сети/Chrome, искать и воспроизводить видео на YouTube, искать в вашей электронной почте, совершать звонки от вашего имени и размещать заказы.

Почти 2-минутная демонстрация показала, как Gemini прокручивает PDF-файл в Chrome для Android, а также открывает приложение YouTube на странице результатов поиска, прокручивает, а затем выбирает/нажимает видео. Google работает над внедрением этих возможностей в Gemini Live.

В октябре Google предоставила разработчикам в предварительном просмотре модель использования компьютера, которая позволяет Gemini взаимодействовать с пользовательскими интерфейсами — прокручивая, нажимая и печатая — подобно тому, как это делают люди. Текущая версия «оптимизирована для веб-браузеров», но Google отметила «большой потенциал для задач управления мобильными интерфейсами».

Google описала эти возможности как «ключевой следующий шаг в создании мощных, универсальных агентов», поскольку «многие цифровые задачи по-прежнему требуют прямого взаимодействия с графическими пользовательскими интерфейсами».

В будущей версии Siri вы сможете «совершать действия в приложениях и между ними» с помощью голоса. Видение Apple, представленное в 2024 году, заключается в том, что задачи, которые раньше требовали бы переключения между несколькими приложениями, «могли бы решаться за несколько секунд» с помощью ряда голосовых команд. Apple подробно описала, что должны сделать разработчики приложений для поддержки этого. До сих пор от Google, в частности от команды Android, не было ничего известно о том, появится ли аналогичная система или подход.

…Siri может выполнять действия в приложениях, так что после того, как вы попросите Siri улучшить фотографию, сказав «Сделай эту фотографию ярче», вы можете попросить Siri поместить ее в определенную заметку в приложении «Заметки» — без усилий.

Вместо этого то, что показала Google, очень обобщенно и, похоже, не требует каких-либо предварительных интеграций. Во многих отношениях это прагматичный подход, особенно если разработчики Android не спешат поддерживать это в своих приложениях.

Это не первый раз, когда Google работает над этим. Основная идея нового Google Ассистента в 2019 году заключалась в том, что обработка голоса на устройстве — прорыв в то время — сделает «касание для использования телефона… медленным».

Этот Ассистент нового поколения позволит вам мгновенно управлять телефоном голосом, выполнять несколько задач в разных приложениях и выполнять сложные действия, причем почти без задержек.

В 2019 году это не получило особого развития и никогда не выходило за пределы эксклюзивности Pixel, страдая от тех же проблем, что и предыдущая эра ассистентов, таких как строго регламентированные голосовые команды.

LLM должны позволить вам формулировать свои команды в разговорной манере. Надеюсь, это также решит проблемы с ограничениями возможностей, позволяя выполнять действия в любом приложении или на любом веб-сайте, не будучи предварительно с ним знакомым, что кажется ограничением в системе Apple.

Генеративный ИИ, похоже, устраняет все претензии к прошлому подходу Google, но я все же задаюсь вопросом, как люди воспримут это на этот раз.

Некоторые сценарии, в которых это было бы полезно, вполне очевидны, например, использование без рук, как Google хотела показать в демонстрации Astra. Консервативно, я бы ожидал, что это будет пределом массового внедрения в следующем году.

Последствия для умных очков (или даже часов) огромны. В конце концов, в ближайшем будущем вы не будете запускать приложения размером с телефон на очках с дисплеями. Представьте, если бы вашим телефоном можно было управлять, а информацию передавать с этих вторичных устройств, включая наушники, пока экран остается выключенным в кармане.

Кроме того, мой главный вопрос заключается в том, станет ли это голосовое управление — при условии идеальной точности — однажды основным методом взаимодействия пользователя с телефоном, если не с ноутбуком, вместо сенсорного.