Google сделала Cloud Speech-to-Text более доступной, добавила новые языки и голоса для Cloud TTS

В октябре прошлого года Google сделала Cloud Text-to-Speech с реалистичными голосами WaveNet от DeepMind доступной для всех разработчиков. Обновления Cloud TTS и Speech-to-Text сегодня включают дополнительные языки, голоса и более доступные модели ценообразования.

Cloud Speech-to-Text — или распознавание речи — важна при создании голосовых приложений и устройств. Этот API также полезен для транскрибирования видео и в колл-центрах. На старте в прошлом году для этих премиальных моделей Google просила клиентов делиться данными об использовании, чтобы помочь улучшить точность этих моделей.

Мы рады сообщить сегодня, что улучшенная телефонная модель имеет на 62% меньше ошибок транскрипции (по сравнению с 54% в прошлом году), в то время как видео-модель, основанная на технологии, аналогичной той, что YouTube использует для автоматического субтитрирования, имеет на 64% меньше ошибок.

Тем временем, улучшенная телефонная модель теперь широко доступна без логирования данных, но будет дороже. Существующие варианты с включенным обменом данными для повышения точности стали на 33% дешевле. Видео-модель, наряду с многоканальным распознаванием для более чем одного говорящего, также выходит на этап общего доступа (GA) с SLA и гарантиями корпоративного уровня.

Между тем, Cloud Text-to-Speech теперь доступен в бета-версии для семи новых языков/вариантов: датского, португальского (Португалия), русского, польского, словацкого, украинского и норвежского букмола.

Реклама — прокрутите дальше для получения дополнительного контента

Это доводит общее количество языков для Cloud TTS до 21, с 31 новым голосом WaveNet и 24 новыми стандартными голосами, также анонсированными сегодня, что в сумме составляет 106 голосов. Сегодня в общедоступный режим выходит функция Device Profiles для оптимизации воспроизведения аудио на различных типах оборудования, таких как наушники и системы IVR.