Google представляет Gemini Robotics для создания универсальных роботов

Abner Li | Среда, 12 марта, 2025, 07:48.

Google DeepMind сегодня анонсировал Gemini Robotics, чтобы вывести Gemini и «ИИ в физический мир», представив новые модели, способные «выполнять более широкий спектр реальных задач, чем когда-либо прежде».

Чтобы ИИ был полезен и помогал людям в физическом мире, он должен демонстрировать «воплощенное» рассуждение — человекоподобную способность понимать окружающий мир и реагировать на него, — а также безопасно действовать для выполнения задач.

Цель состоит в создании универсальных роботов, причем генеральный директор Сундар Пичаи добавил, что Google «всегда рассматривал робототехнику как полезную испытательную площадку для переноса достижений в области ИИ в физический мир».

«Gemini Robotics» — это модель «зрение-язык-действие» (VLA), построенная на базе Gemini 2.0 «с добавлением физических действий в качестве нового выходного формата для непосредственного управления роботами».

При создании Google ставит перед моделями ИИ для робототехники «три основных качества»:

Реклама — прокрутите дальше для получения контента

Универсальность: «способность адаптироваться к различным ситуациям»

Gemini Robotics «умеет работать с новыми объектами, разнообразными инструкциями и новыми средами», включая «задачи, с которыми она никогда не сталкивалась во время обучения», используя базовое понимание мира Gemini.

Интерактивность: «понимание и быстрая реакция на инструкции или изменения в окружающей среде»

Новая модель Google может «реагировать на команды, сформулированные на повседневном разговорном языке и на разных языках».

Ловкость: «способность выполнять действия, которые люди обычно делают руками и пальцами, например, аккуратно манипулировать объектами».

«Gemini Robotics может решать чрезвычайно сложные многоэтапные задачи, требующие точной манипуляции, такие как складывание оригами или упаковка закуски в пакет Ziploc».

Google также анонсировал модель «зрение-язык» Gemini Robotics-ER («воплощенное рассуждение») с улучшенным пространственным «пониманием мира, необходимым для робототехники, с особым акцентом на пространственное рассуждение, и позволяет робототехникам подключать ее к своим существующим низкоуровневым контроллерам».

Например, увидев керамическую кружку, модель может интуитивно захватить ее двумя пальцами за ручку и безопасно приблизиться к ней.

Эти модели работают на различных роботизированных платформах (включая двуруких и гуманоидных роботов) с доверенными тестировщиками, такими как Agile Robots, Agility Robots, Boston Dynamics и Enchanted Tools.