Google объясняет, как работают метки говорящих в приложении Recorder, и планирует использовать Tensor TPU для экономии энергии

Abner Li | Среда, 14 декабря, 2022, 05:47.

В рамках декабрьского обновления Pixel Feature Drop отличное приложение Recorder от Google получило функцию меток говорящих, которая может определять нескольких человек. Как и в предыдущих версиях, команда, стоящая за ним, выпустила объяснение того, как появилась эта функция.

Метки говорящих работают на основе Turn-to-Diarize, новой системы диаризации говорящих от Google. Она состоит из трех основных компонентов, которые «полностью работают на устройстве»:

Модель определения смены говорящего, которая обнаруживает смену говорящего во входной речи.
Модель кодировщика говорящего, которая извлекает характеристики голоса из каждой части речи говорящего.
Многоэтапный алгоритм кластеризации, который очень эффективно назначает метки говорящих каждой части речи.

Наша система диаризации говорящих использует несколько высокооптимизированных моделей машинного обучения и алгоритмов, позволяющих диаризировать часы аудио в режиме реального времени с ограниченными вычислительными ресурсами на мобильных устройствах.

Google отмечает, что аудиозаписи из приложения Recorder могут быть «продолжительностью до 18 часов», и что большее количество аудио означает большую «уверенность в прогнозируемых метках говорящих». Таким образом, Recorder «периодически будет вносить исправления в ранее предсказанные метки говорящих с низкой уверенностью», в то время как пользователи могут вручную вносить правки и разделять расшифровку.

Текущая система в основном работает на ЦП Tensor, при этом поддерживаются как первое поколение, так и G2 на Pixel 6, 6 Pro, 6a, 7 и 7 Pro. В будущем Google «работает над делегированием большего количества вычислений блоку TPU, что еще больше снизит общее энергопотребление системы диаризации». В настоящее время Recorder 4.2 содержит предупреждающий текст о том, что метки говорящих не будут работать, если «устройство слишком горячее».

Еще одним направлением будущей работы является использование многоязычных возможностей кодировщика говорящих и моделей распознавания речи для расширения этой функции на другие языки.

Google объясняет, как работают метки говорящих в приложении Recorder, и планирует использовать Tensor TPU для экономии энергии

Больше о Google Pixel: