
Анонсируя Gemini 2.0, Google сегодня поделилась последними новостями о Project Astra, одновременно представив Project Mariner — агента, который может просматривать веб-страницы за вас.
Google утверждает, что Gemini 2.0 Flash с его «встроенными возможностями взаимодействия с пользовательским интерфейсом» делает возможным «новый класс действий агентов». Компания также отмечает улучшения в «мультимодальном мышлении, понимании длинного контекста, выполнении сложных инструкций и планировании, композиционном вызове функций, нативном использовании инструментов и улучшенной задержке».
Все эти проекты/прототипы, построенные на основе Gemini 2.0, находятся на «ранних стадиях разработки», но «доверенные тестировщики» уже получили к ним доступ и предоставляют обратную связь.
С Gemini 2.0 в Project Astra — проект Google по созданию помощника или «универсального ИИ-агента, полезного в повседневной жизни» — было внесено ряд обновлений с момента его демонстрации на I/O 2024 в мае:
- Улучшенный диалог: Astra теперь может общаться на нескольких языках, смешивать языки, а также лучше понимать акценты и редкие слова.
- Новое использование инструментов: Astra может использовать Google Поиск, Lens и Карты для помощи в ответе на ваши запросы.
- Улучшенная память: Astra «теперь имеет память до 10 минут в рамках сессии и может запоминать больше предыдущих разговоров, что делает его лучше персонализированным для вас».
- Улучшенная задержка: Astra теперь может «понимать язык с задержкой, сопоставимой с человеческой речью», благодаря встроенному распознаванию аудио и новым потоковым возможностям.
В демонстрационном видео, которое Google представила сегодня, показано Android-приложение Project Astra с интерфейсом видоискателя и возможностью анализировать (делиться экраном) содержимое вашего дисплея, оставаясь активным в виде чат-окна. Это приложение предназначено только для тестирования. Когда Project Astra будет запущен для потребителей, это произойдет через приложение Gemini (Live). Google также тестирует Astra на прототипах очков.
Тем временем, Project Mariner — это агент, который может просматривать и перемещаться (печатать, прокручивать или нажимать) по веб-страницам для выполнения более широких задач, указанных пользователем. В частности, он может «понимать и анализировать информацию на экране вашего браузера, включая пиксели и веб-элементы, такие как текст, код, изображения и формы».
В настоящее время он существует в виде расширения для Chrome, которое использует существующий пользовательский интерфейс боковой панели. Google продемонстрировала его использование в сценариях для малого бизнеса и для покупок.
При оценке по бенчмарку WebVoyager, который тестирует производительность агентов в сквозных реальных веб-задачах, Project Mariner достиг передового результата в 83,5% при работе в конфигурации с одним агентом.
Что касается безопасности, Project Mariner может выполнять действия только в активной вкладке браузера. Он будет запрашивать у пользователей подтверждение «некоторых конфиденциальных действий, например, совершения покупки». Также он разработан для «выявления потенциально вредоносных инструкций из внешних источников и предотвращения злоупотреблений» в виде мошенничества и фишинга.
Доверенные тестировщики уже начинают тестировать Project Mariner с использованием экспериментального расширения для Chrome, и параллельно мы начинаем переговоры с веб-экосистемой.
Google также обсудила «экспериментального ИИ-агента для кода, который интегрируется непосредственно в рабочий процесс GitHub» под названием Jules.
Он может решать проблему, разрабатывать план и выполнять его, все под руководством и наблюдением разработчика. Эта работа является частью нашей долгосрочной цели по созданию ИИ-агентов, полезных во всех областях, включая программирование.

Последний прототип — это Gemini 2.0 для игр, который может выступать в качестве «виртуального игрового компаньона», видящего экран вашего мобильного телефона и отвечающего на ваши вопросы. Он тестируется с такими играми, как Clash of Clans.
Он может анализировать игру, основываясь исключительно на происходящем на экране, и предлагать рекомендации по дальнейшим действиям в режиме реального времени.