Google представила возможности Gemini 2.0 Project Astra и браузерного агента ‘Mariner’

Abner Li | Среда, 11 декабря, 2024, 07:33.

Анонсируя Gemini 2.0, Google сегодня поделилась последними новостями о Project Astra, одновременно представив Project Mariner — агента, который может просматривать веб-страницы за вас.

Google утверждает, что Gemini 2.0 Flash с его «встроенными возможностями взаимодействия с пользовательским интерфейсом» делает возможным «новый класс действий агентов». Компания также отмечает улучшения в «мультимодальном мышлении, понимании длинного контекста, выполнении сложных инструкций и планировании, композиционном вызове функций, нативном использовании инструментов и улучшенной задержке».

Все эти проекты/прототипы, построенные на основе Gemini 2.0, находятся на «ранних стадиях разработки», но «доверенные тестировщики» уже получили к ним доступ и предоставляют обратную связь.

С Gemini 2.0 в Project Astra — проект Google по созданию помощника или «универсального ИИ-агента, полезного в повседневной жизни» — было внесено ряд обновлений с момента его демонстрации на I/O 2024 в мае:

Реклама — прокрутите вниз, чтобы увидеть больше контента

Улучшенный диалог: Astra теперь может общаться на нескольких языках, смешивать языки, а также лучше понимать акценты и редкие слова.
Новое использование инструментов: Astra может использовать Google Поиск, Lens и Карты для помощи в ответе на ваши запросы.
Улучшенная память: Astra «теперь имеет память до 10 минут в рамках сессии и может запоминать больше предыдущих разговоров, что делает его лучше персонализированным для вас».
Улучшенная задержка: Astra теперь может «понимать язык с задержкой, сопоставимой с человеческой речью», благодаря встроенному распознаванию аудио и новым потоковым возможностям.

В демонстрационном видео, которое Google представила сегодня, показано Android-приложение Project Astra с интерфейсом видоискателя и возможностью анализировать (делиться экраном) содержимое вашего дисплея, оставаясь активным в виде чат-окна. Это приложение предназначено только для тестирования. Когда Project Astra будет запущен для потребителей, это произойдет через приложение Gemini (Live). Google также тестирует Astra на прототипах очков.

Тем временем, Project Mariner — это агент, который может просматривать и перемещаться (печатать, прокручивать или нажимать) по веб-страницам для выполнения более широких задач, указанных пользователем. В частности, он может «понимать и анализировать информацию на экране вашего браузера, включая пиксели и веб-элементы, такие как текст, код, изображения и формы».

В настоящее время он существует в виде расширения для Chrome, которое использует существующий пользовательский интерфейс боковой панели. Google продемонстрировала его использование в сценариях для малого бизнеса и для покупок.

При оценке по бенчмарку WebVoyager, который тестирует производительность агентов в сквозных реальных веб-задачах, Project Mariner достиг передового результата в 83,5% при работе в конфигурации с одним агентом.

Что касается безопасности, Project Mariner может выполнять действия только в активной вкладке браузера. Он будет запрашивать у пользователей подтверждение «некоторых конфиденциальных действий, например, совершения покупки». Также он разработан для «выявления потенциально вредоносных инструкций из внешних источников и предотвращения злоупотреблений» в виде мошенничества и фишинга.

Доверенные тестировщики уже начинают тестировать Project Mariner с использованием экспериментального расширения для Chrome, и параллельно мы начинаем переговоры с веб-экосистемой.

Google также обсудила «экспериментального ИИ-агента для кода, который интегрируется непосредственно в рабочий процесс GitHub» под названием Jules.

Он может решать проблему, разрабатывать план и выполнять его, все под руководством и наблюдением разработчика. Эта работа является частью нашей долгосрочной цели по созданию ИИ-агентов, полезных во всех областях, включая программирование.

Последний прототип — это Gemini 2.0 для игр, который может выступать в качестве «виртуального игрового компаньона», видящего экран вашего мобильного телефона и отвечающего на ваши вопросы. Он тестируется с такими играми, как Clash of Clans.

Он может анализировать игру, основываясь исключительно на происходящем на экране, и предлагать рекомендации по дальнейшим действиям в режиме реального времени.