Модель Gemini 2.5 Computer Use доступна в предварительной версии с высокой производительностью в веб-браузерах и на Android

Google теперь позволяет разработчикам ознакомиться с предварительной версией модели Gemini 2.5 Computer Use, которая лежит в основе Project Mariner и функций агентов в режиме ИИ.

Эта «специализированная модель» может взаимодействовать с графическими пользовательскими интерфейсами, в частности с браузерами и веб-сайтами. В цикле происходит несколько этапов «до завершения задачи».

  • Отправить запрос модели: Входные данные включают «запрос пользователя, снимок экрана среды и историю недавних действий».
  • «Затем модель анализирует эти входные данные и генерирует ответ, как правило, вызов функции, представляющий одно из действий пользовательского интерфейса, таких как нажатие или ввод текста».
  • Получить ответ модели: «…клиентский код затем выполняет полученное действие».
  • «После выполнения действия новый снимок экрана графического интерфейса и текущий URL отправляются обратно в модель Computer Use в качестве ответа функции, перезапуская цикл».

Другие действия пользовательского интерфейса, поддерживаемые моделью, включают переход вперед/назад, поиск в интернете, переход по определенному URL, наведение курсора, комбинации клавиш, прокрутку и перетаскивание.

Google представил два примера (в 3-кратном ускорении) со следующими запросами:

Реклама — прокрутите вниз, чтобы увидеть больше контента

«С https://tinyurl.com/pet-care-signup получите все данные о любом питомце, проживающем в Калифорнии, и добавьте его в качестве гостя в мою CRM для спа-салона по адресу https://pet-luxe-spa.web.app/. Затем назначьте последующий визит к специалисту Аниме Лавар на 10 октября в любое время после 8 утра. Причина визита та же, что и запрошенное лечение».

«Наш арт-клуб провел мозговой штурм задач перед ярмаркой. Доска хаотична, и мне нужна ваша помощь в организации задач по созданным мною категориям. Перейдите на sticky-note-jam.web.app и убедитесь, что заметки находятся в правильных разделах. Перетащите их туда, если нет».

Gemini 2.5 Computer Use «в первую очередь оптимизирована для веб-браузеров». Однако у Google есть бенчмарк «AndroidWorld», который «демонстрирует большой потенциал для задач управления мобильным пользовательским интерфейсом», хотя она «еще не оптимизирована для управления на уровне настольной ОС».

Google продемонстрировал высокую производительность в бенчмарках управления веб-браузерами и мобильными устройствами по сравнению с предложениями Claude и OpenAI, а также «ведущее качество управления браузером при самой низкой задержке».

Эта модель построена на базе возможностей визуального понимания и рассуждения Gemini 2.5 Pro. Google заявляет, что «версии этой модели» используются в Project Mariner и возможностях агентов в режиме ИИ. Она использовалась внутри компании для тестирования пользовательского интерфейса с целью ускорения разработки программного обеспечения, а Google имеет программу раннего доступа для сторонних разработчиков, создающих помощников и инструменты для автоматизации рабочих процессов.

Gemini 2.5 Computer Use доступна в общедоступной предварительной версии сегодня через Gemini API в Google AI Studio и Vertex AI.

Попробуйте сейчас: В демо-среде, размещенной Browserbase.