
После прошлогоднего обновления Cloud Text-to-Speech, которое добавило более естественные голоса благодаря моделям DeepMind WaveNet, Google теперь перерабатывает обратный API. Cloud Speech-to-Text сегодня получает свой «крупнейший пересмотр» для бизнес-клиентов с момента запуска в 2016 году.
После почти года общей доступности Google теперь лучше оптимизирует API, построенный на основной технологии распознавания речи, используемой Поиском и Ассистентом.
Ориентируясь на большее количество бизнес-пользователей, Speech-to-Text добавляет новые модели транскрипции видео и телефонных звонков, специально настроенные для таких задач, как колл-центры. В последнем случае, что Google уже рекламировал, API может поддерживать 2-4 говорящих и учитывать фоновый шум, такой как помехи телефонной линии и музыка ожидания.
Между тем, еще одним возможным применением сервиса Google Cloud является транскрипция телевизионной трансляции баскетбольного матча, где присутствует более четырех говорящих, таких как ведущие, интервьюируемые игроки и рекламные объявления, с учетом криков толпы, звуковых эффектов и других игровых шумов. От четырех минут в первом случае до более двух часов во втором Google демонстрирует адаптивность Speech-to-Text.
Эта оптимизация может заменить автоматический выбор модели, в то время как эта настройка была достигнута после того, как клиенты попросили Google использовать реальные данные для обучения модели. Расширенная модель phone_call позволяет клиентам добровольно предоставлять обучающие данные в обмен на доступ к этим улучшениям. В результате использования реальных данных новая модель имеет на 54% меньше ошибок, чем базовая модель phone_call.
Большинство крупных облачных провайдеров используют речевые данные из входящих запросов для улучшения своих продуктов. Здесь, в Google Cloud, мы избегали этой практики, но клиенты постоянно просят нас использовать реальные данные, репрезентативные для них, для улучшения наших моделей. Мы хотим удовлетворить эту потребность, продуманно относясь к конфиденциальности и соблюдая наши политики защиты данных. Именно поэтому сегодня мы запускаем одну из первых в отрасли программ добровольного участия в журналировании данных и представляем первую модель, основанную на этих данных.
Кроме того, новая видеомодель использует машинное обучение, аналогичное субтитрам YouTube, с сокращением ошибок на 64% по сравнению со стандартной.
Между тем, Google добавляет бета-функцию автоматической пунктуации для длинных транскрипций речи, которая предлагает запятые, вопросительные знаки и точки. Наконец, компания позволит пользователям помечать транскрибированное аудио или видео, чтобы сообщить Google, какие модели Speech-to-Text следует приоритизировать в дальнейшем.
Смотрите 9to5Google на YouTube для получения дополнительных новостей: