
На протяжении нескольких последних выпусков Gboard для Android работал над «ускоренным голосовым набором», который работает в автономном режиме. Сегодня Google официально объявляет об этом на телефонах Pixel и подробно описывает созданный им «сквозной, полностью нейронный, бортовой распознаватель речи».
Google отмечает, что «революция» в распознавании речи началась в 2012 году благодаря значительному повышению точности с помощью глубокого обучения. «Основным направлением» различных архитектур было сокращение времени, необходимого для транскрипции речи пользователя, или задержки. Google отмечает, что «автоматизированный помощник чувствует себя намного полезнее, когда он быстро реагирует на запросы».
Последнее достижение Google — это сквозной, полностью нейронный, бортовой распознаватель речи в Gboard, когда пользователи нажимают на значок микрофона в правом верхнем углу. Он работает полностью в автономном режиме и занимает всего 85 МБ, по сравнению с предыдущими моделями, которые весили 2 ГБ, а затем 450 МБ.
Это означает отсутствие сетевых задержек или прерываний — новый распознаватель всегда доступен, даже когда вы не в сети. Модель работает на уровне символов, так что по мере вашей речи она выводит слова посимвольно, как если бы кто-то печатал то, что вы говорите, в реальном времени, и именно так, как вы ожидаете от системы диктовки клавиатуры.
Помимо автономного доступа, новая система выводит текст посимвольно, а не по одному слову за раз.
Распознаватель RNN-T выводит символы по одному, по мере вашей речи, с пробелами в соответствующих местах. Он делает это с помощью обратной связи, которая передает предсказанные моделью символы обратно в нее для предсказания следующих символов, как описано на рисунке ниже.
Сегодняшний прорыв стал возможен благодаря объединению различных компонентов системы распознавания речи в один. Единая нейронная сеть «напрямую сопоставляет входную аудиоволну с выходным предложением».
Новый голосовой набор на устройстве изначально распространяется на телефоны Pixel, Pixel 2 и Pixel 3 с настройкой американского английского. Чтобы включить его, перейдите в настройки Gboard > Голосовой набор > Ускоренный голосовой набор. Google ожидает, что эта функция появится на других языках, а затем и в других сценариях использования.