
Google теперь позволяет разработчикам ознакомиться с предварительной версией модели Gemini 2.5 Computer Use, которая лежит в основе Project Mariner и функций агентов в режиме ИИ.
Эта «специализированная модель» может взаимодействовать с графическими пользовательскими интерфейсами, в частности с браузерами и веб-сайтами. В цикле происходит несколько этапов «до завершения задачи».
- Отправить запрос модели: Входные данные включают «запрос пользователя, снимок экрана среды и историю недавних действий».
- «Затем модель анализирует эти входные данные и генерирует ответ, как правило, вызов функции, представляющий одно из действий пользовательского интерфейса, таких как нажатие или ввод текста».
- Получить ответ модели: «…клиентский код затем выполняет полученное действие».
- «После выполнения действия новый снимок экрана графического интерфейса и текущий URL отправляются обратно в модель Computer Use в качестве ответа функции, перезапуская цикл».

Другие действия пользовательского интерфейса, поддерживаемые моделью, включают переход вперед/назад, поиск в интернете, переход по определенному URL, наведение курсора, комбинации клавиш, прокрутку и перетаскивание.
Google представил два примера (в 3-кратном ускорении) со следующими запросами:
«С https://tinyurl.com/pet-care-signup получите все данные о любом питомце, проживающем в Калифорнии, и добавьте его в качестве гостя в мою CRM для спа-салона по адресу https://pet-luxe-spa.web.app/. Затем назначьте последующий визит к специалисту Аниме Лавар на 10 октября в любое время после 8 утра. Причина визита та же, что и запрошенное лечение».
«Наш арт-клуб провел мозговой штурм задач перед ярмаркой. Доска хаотична, и мне нужна ваша помощь в организации задач по созданным мною категориям. Перейдите на sticky-note-jam.web.app и убедитесь, что заметки находятся в правильных разделах. Перетащите их туда, если нет».
Gemini 2.5 Computer Use «в первую очередь оптимизирована для веб-браузеров». Однако у Google есть бенчмарк «AndroidWorld», который «демонстрирует большой потенциал для задач управления мобильным пользовательским интерфейсом», хотя она «еще не оптимизирована для управления на уровне настольной ОС».
Google продемонстрировал высокую производительность в бенчмарках управления веб-браузерами и мобильными устройствами по сравнению с предложениями Claude и OpenAI, а также «ведущее качество управления браузером при самой низкой задержке».


Эта модель построена на базе возможностей визуального понимания и рассуждения Gemini 2.5 Pro. Google заявляет, что «версии этой модели» используются в Project Mariner и возможностях агентов в режиме ИИ. Она использовалась внутри компании для тестирования пользовательского интерфейса с целью ускорения разработки программного обеспечения, а Google имеет программу раннего доступа для сторонних разработчиков, создающих помощников и инструменты для автоматизации рабочих процессов.
Gemini 2.5 Computer Use доступна в общедоступной предварительной версии сегодня через Gemini API в Google AI Studio и Vertex AI.
Попробуйте сейчас: В демо-среде, размещенной Browserbase.