Google объясняет, как работает функция «Смотри и говори» на Nest Hub Max

Функция «Смотри и говори» для Nest Hub Max была запущена на I/O 2022, и теперь Google подробно рассказал, как именно работает эта замена голосовой команде «Привет, Google» на основе камеры.

Google называет «Смотри и говори» — с очень забавным кодовым названием «Синяя сталь» в честь персонажа из «Образцового самца» — «первой мультимодальной функцией Assistant на устройстве, которая одновременно анализирует аудио, видео и текст, чтобы определить, когда вы разговариваете с вашим Nest Hub Max».

Каждое взаимодействие состоит из трех фаз обработки, при этом Assistant ищет такие сигналы, как близость, сопоставление лиц, ориентация головы, направление взгляда, движение губ, сопоставление голоса, контекстная осведомленность и классификация намерений. Всего имеется более 100 сигналов с камеры и микрофона, обработка которых происходит локально на устройстве.

Зачастую достаточно сильный сигнал взаимодействия возникает только спустя значительное время после того, как пользователь начал говорить, что может добавить сотни миллисекунд задержки. Существующие модели понимания намерений усугубляют это, поскольку они требуют полных, а не частичных запросов. Чтобы устранить этот разрыв, «Смотри и говори» полностью отказывается от потоковой передачи аудио на сервер, транскрипция и понимание намерений осуществляются на устройстве.

Все начинается с того, что Nest Hub Max определяет, «проявляет ли пользователь намерение взаимодействовать с [Assistant]». Пользователь должен находиться в пределах полутора метров и быть распознанным с помощью функции сопоставления лиц. Google позаботился о том, чтобы игнорировать мимолетные взгляды на устройство.

Реклама — прокрутите вниз, чтобы увидеть больше контента

Для зарегистрированного пользователя в пределах досягаемости пользовательская модель отслеживания взгляда определяет, смотрит ли он на устройство. Эта модель оценивает как угол взгляда, так и бинарную уверенность в том, что взгляд направлен на камеру, используя многобашенную сверточную нейронную сеть, где одна башня обрабатывает все лицо, а другая — участки вокруг глаз. Поскольку экран устройства закрывает область под камерой, на которую естественным образом будет смотреть пользователь, мы сопоставляем угол взгляда и бинарный прогноз направления взгляда на камеру с областью экрана устройства. Чтобы гарантировать, что окончательный прогноз устойчив к случайным индивидуальным предсказаниям, непроизвольным морганиям глаз и саккадам, мы применяем функцию сглаживания к прогнозам отдельных кадров, чтобы удалить случайные индивидуальные предсказания.

На втором этапе Hub Max начинает слушать, проверяет сопоставление голоса и прогнозирует, «предназначалось ли высказывание пользователя для запроса к Assistant».

Это состоит из двух частей: 1) модель, которая анализирует нелексическую информацию в аудио (т. е. высоту тона, скорость, звуки колебаний), чтобы определить, похоже ли высказывание на запрос к Assistant, и 2) модель анализа текста, которая определяет, является ли транскрипт запросом к Assistant. Вместе они отфильтровывают запросы, не предназначенные для Assistant. Также используются контекстные визуальные сигналы для определения вероятности того, что взаимодействие было предназначено для Assistant.

Третий этап, после выполнения первых двух, — это выполнение запроса, «когда он взаимодействует с сервером Assistant, чтобы получить ответ на намерение и текст запроса пользователя». Эта функция потребовала широкого спектра тестирования:

Мы разработали разнообразный набор данных с участием более 3000 человек для тестирования функции в различных демографических подгруппах. Улучшения модели, обусловленные разнообразием в наших обучающих данных, повысили производительность для всех подгрупп.

Для Google ««Смотри и говори» представляет собой значительный шаг к тому, чтобы взаимодействие пользователей с Google Assistant было максимально естественным». Следующими функциями, которые появятся на Nest Hub Max, станут «Быстрые фразы» — предварительно определенные команды (например, установить будильник или включить/выключить свет), для которых не требуется ключевое слово.

Больше о Nest Hub Max: