Google открывает Cloud Text-to-Speech для разработчиков с естественными голосами на базе DeepMind WaveNet

Учитывая рост популярности умных помощников и умных домашних устройств, преобразование текста в речь (TTS) становится все более основным методом взаимодействия. Google сегодня представляет свою технологию Cloud Text-to-Speech и делает ее доступной для разработчиков.

В качестве части Google Cloud Platform, любой желающий может использовать ее, чтобы «разговаривающие» устройства с поддержкой IoT отвечали вам, преобразовывать текстовые медиа, такие как статьи и книги, в аудиоформат и, что более интересно, обеспечивать работу систем обработки естественного языка в реальном времени, которые идеально подходят для голосовых систем ответа в колл-центрах.

Google отмечает, что Cloud Text-to-Speech аутентично и «правильно произносит сложный текст, такой как имена, даты, время и адреса». Тем временем разработчики могут настраивать высоту тона, скорость речи и громкость, а сервис предлагает 32 различных голоса на 12 языках и их вариантах.

Реклама — прокрутите для просмотра дополнительного контента

Некоторые из этих голосов созданы дочерней компанией Alphabet в области ИИ, DeepMind, с помощью ее генеративной модели для необработанного аудио. WaveNet отвечает за «выборку» высококачественных голосов, звучащих более естественно, при этом Google заявляет о 50%-ном сокращении разрыва с производительностью человека.

С этими улучшениями новая модель WaveNet производит более естественную речь. В тестах люди дали новым голосам WaveNet на американском английском среднем показателе средней оценки (MOS) 4,1 по шкале от 1 до 5 — более чем на 20% лучше, чем у стандартных голосов, и сократив разрыв с человеческой речью более чем на 70%. Поскольку голоса WaveNet также требуют меньше записанного аудиоввода для создания высококачественных моделей, мы ожидаем продолжать улучшать как разнообразие, так и качество голосов WaveNet, доступных клиентам Cloud в ближайшие месяцы.

WaveNet проделала долгий путь с момента своего появления в конце 2016 года; текущая версия работает на Google Cloud TPU и генерирует необработанные волновые формы в 1000 раз быстрее, создавая одну секунду речи всего за 50 миллисекунд.


Смотрите 9to5Google на YouTube для получения большего количества новостей: