Новая технология распознавания речи от Google улучшает голосовые интерфейсы и уже используется в Spotify Car Thing

С 2017 года Google Cloud предлагает API Speech-to-Text (STT), который сторонние разработчики могут использовать в своих сервисах. Новейшие модели распознавания речи от Google повышают точность благодаря «значительному» технологическому усовершенствованию и особенно хорошо подходят для создания голосовых пользовательских интерфейсов.

Новая нейронная модель sequence-to-sequence для API Speech-to-Text от Google повышает точность для 23 языков и 61 поддерживаемой локали. Помимо «улучшения качества из коробки», расширена поддержка различных типов голосов, шумовых сред и акустических условий.

В последние несколько лет методы автоматического распознавания речи (ASR) основывались на отдельных акустических, произносительных и языковых моделях. Исторически каждый из этих трёх компонентов обучался отдельно, а затем объединялся для выполнения распознавания речи. 

Модели-конформеры, которые мы анонсируем сегодня, основаны на единой нейронной сети. В отличие от обучения трёх отдельных моделей, которые затем необходимо объединять, этот подход обеспечивает более эффективное использование параметров модели.

Эти улучшения позволяют получать «более точные результаты в большем количестве контекстов», при этом Google особенно подчёркивает, что распознавание речи теперь можно применять в большем количестве сценариев. В случае голосовых интерфейсов управления «пользователи [могут] общаться с этими интерфейсами более естественно и длинными предложениями».

  • «Latest long» специально разработана для длинной спонтанной речи, аналогично существующей модели «video».
  • «Latest short», с другой стороны, обеспечивает отличное качество и низкую задержку для коротких высказываний, таких как команды или фразы.

Spotify стала одним из первых, кто внедрил эти новые модели, и «тесно сотрудничала с Google» над голосовым интерфейсом «Hey Spotify», который используется в мобильных приложениях и устройстве Car Thing. В нашем обзоре мы отметили, что он хорошо справляется с основной задачей распознавания и транскрипции речи:

Основы работают хорошо, но наличие голосового ассистента, который не может делать ничего дополнительного сверх того, что, скажем, мог бы сделать постоянно активный Google Assistant на вашем телефоне, немного разочаровывает. Однако приятно, что Car Thing переносит микрофоны подальше от телефона для повышения точности. Я ни разу не был разочарован способностью Car Thing слышать мои команды.