Google объясняет, как работают метки говорящих в приложении Recorder, и планирует использовать Tensor TPU для экономии энергии

В рамках декабрьского обновления Pixel Feature Drop отличное приложение Recorder от Google получило функцию меток говорящих, которая может определять нескольких человек. Как и в предыдущих версиях, команда, стоящая за ним, выпустила объяснение того, как появилась эта функция.

Метки говорящих работают на основе Turn-to-Diarize, новой системы диаризации говорящих от Google. Она состоит из трех основных компонентов, которые «полностью работают на устройстве»:

Наша система диаризации говорящих использует несколько высокооптимизированных моделей машинного обучения и алгоритмов, позволяющих диаризировать часы аудио в режиме реального времени с ограниченными вычислительными ресурсами на мобильных устройствах.

Google отмечает, что аудиозаписи из приложения Recorder могут быть «продолжительностью до 18 часов», и что большее количество аудио означает большую «уверенность в прогнозируемых метках говорящих». Таким образом, Recorder «периодически будет вносить исправления в ранее предсказанные метки говорящих с низкой уверенностью», в то время как пользователи могут вручную вносить правки и разделять расшифровку.

Текущая система в основном работает на ЦП Tensor, при этом поддерживаются как первое поколение, так и G2 на Pixel 6, 6 Pro, 6a, 7 и 7 Pro. В будущем Google «работает над делегированием большего количества вычислений блоку TPU, что еще больше снизит общее энергопотребление системы диаризации». В настоящее время Recorder 4.2 содержит предупреждающий текст о том, что метки говорящих не будут работать, если «устройство слишком горячее».

Еще одним направлением будущей работы является использование многоязычных возможностей кодировщика говорящих и моделей распознавания речи для расширения этой функции на другие языки.

Больше о Google Pixel: