
Перед вчерашним мероприятием, посвященным устройствам 4 октября, Google запустил мужской и женский варианты голосов для Assistant на английском языке. Приятная настройка, новые голоса также звучат более реалистично. Это стало возможным благодаря работе подразделения DeepMind от Alphabet и новой глубокой нейронной сети, используемой для синтеза звука.
Год назад лаборатория Alphabet, занимающаяся искусственным интеллектом, представила глубокую нейронную сеть WaveNet для «генерации необработанных звуковых волн, способных производить более качественную и реалистично звучащую речь, чем существующие методы».
За последние 12 месяцев команда работала над тем, чтобы этот «вычислительно сложный» прототип исследования работал на потребительских продуктах, начиная с голосов Google Assistant для американского английского и японского языков. Новая модель может создавать звуковые волны в 1000 раз быстрее с более высокой точностью и разрешением, чем оригинал.
Этот вычислительный подход к преобразованию текста в речь — огромный шаг, учитывая, что ранее требовался актер озвучивания для записи огромной базы звуковых фрагментов, которые затем объединялись.
Однако эти системы могут приводить к неестественному звучанию голосов, и их также трудно модифицировать, поскольку каждый раз, когда требуется набор изменений, таких как новые эмоции или интонации, необходимо записывать совершенно новую базу данных.
Прорывной подход DeepMind прошлого года заключался в «глубокой генеративной модели, которая может создавать отдельные звуковые волны с нуля». Это позволило получить более естественные звуки, которые лучше звучат и имеют естественную интонацию, акценты и даже такие имитационные вещи, как «причмокивания».
Для более глубокого погружения обязательно ознакомьтесь с записью в блоге DeepMind, подробно описывающей их достижения, а также с первоначальной записью, обобщающей прошлогоднюю статью.
Посетите 9to5Google на YouTube для получения дополнительных новостей: