
Google DeepMind сегодня анонсировал Gemini Robotics, чтобы вывести Gemini и «ИИ в физический мир», представив новые модели, способные «выполнять более широкий спектр реальных задач, чем когда-либо прежде».
Чтобы ИИ был полезен и помогал людям в физическом мире, он должен демонстрировать «воплощенное» рассуждение — человекоподобную способность понимать окружающий мир и реагировать на него, — а также безопасно действовать для выполнения задач.
Цель состоит в создании универсальных роботов, причем генеральный директор Сундар Пичаи добавил, что Google «всегда рассматривал робототехнику как полезную испытательную площадку для переноса достижений в области ИИ в физический мир».
«Gemini Robotics» — это модель «зрение-язык-действие» (VLA), построенная на базе Gemini 2.0 «с добавлением физических действий в качестве нового выходного формата для непосредственного управления роботами».
При создании Google ставит перед моделями ИИ для робототехники «три основных качества»:
Универсальность: «способность адаптироваться к различным ситуациям»
- Gemini Robotics «умеет работать с новыми объектами, разнообразными инструкциями и новыми средами», включая «задачи, с которыми она никогда не сталкивалась во время обучения», используя базовое понимание мира Gemini.
Интерактивность: «понимание и быстрая реакция на инструкции или изменения в окружающей среде»
- Новая модель Google может «реагировать на команды, сформулированные на повседневном разговорном языке и на разных языках».
Ловкость: «способность выполнять действия, которые люди обычно делают руками и пальцами, например, аккуратно манипулировать объектами».
- «Gemini Robotics может решать чрезвычайно сложные многоэтапные задачи, требующие точной манипуляции, такие как складывание оригами или упаковка закуски в пакет Ziploc».
Google также анонсировал модель «зрение-язык» Gemini Robotics-ER («воплощенное рассуждение») с улучшенным пространственным «пониманием мира, необходимым для робототехники, с особым акцентом на пространственное рассуждение, и позволяет робототехникам подключать ее к своим существующим низкоуровневым контроллерам».
Например, увидев керамическую кружку, модель может интуитивно захватить ее двумя пальцами за ручку и безопасно приблизиться к ней.
Эти модели работают на различных роботизированных платформах (включая двуруких и гуманоидных роботов) с доверенными тестировщиками, такими как Agile Robots, Agility Robots, Boston Dynamics и Enchanted Tools.