Google Assistant получает австралийский и британский голоса для Android, Home и умных дисплеев

На конференции I/O 2018 Google представила шесть новых голосов для Assistant, основанных на WaveNet от DeepMind. Это позволило пользователям настраивать голосовое взаимодействие на телефонах Android, Google Home, а теперь и на умных дисплеях. Сегодня Google Assistant получает австралийский и британский акценты для еще большей кастомизации.

Когда Assistant только запустился, у него был один голос — по имени «Холли», прежде чем в прошлом году был добавлен мужской голос. В мае шесть новых голосов увеличили общее количество до восьми, что обеспечило большее разнообразие. В июле Google также внедрил новую схему именования голосов Assistant на основе цветов. Ранее варианты просто назывались Голос I (теперь Красный), Голос II (Оранжевый) и т. д.

Сегодняшние голоса следуют этой схеме: австралийский акцент получил официальное название «Sydney Harbour Blue», а британский голос называется «British Racing Green».

Реклама — прокрутите дальше, чтобы увидеть больше контента

Когда Google представил новую схему именования, возник вопрос, как они будут выделяться. Ответ, похоже, заключается в выборе очень специфических оттенков, причем оба фактически являются цветами.

Оба голоса — женские, и их можно выбрать, перейдя в «Настройки», а затем на вкладку «Ассистент». В карусели на странице выбора голоса Ассистента два новых варианта расположены справа. Пользователи могут прослушать их, а индикатор волны будет отображать прогресс речи.

Эти новые голоса также сгенерированы моделью синтеза речи WaveNet от DeepMind. Глубокие нейронные сети генерируют необработанные аудиоволны, которые звучат более реалистично и естественно. Sydney Harbour Blue и British Racing Green начнут развертываться сегодня и будут доступны для устройств, настроенных на английский язык в США.

Благодаря этим корректировкам новая модель WaveNet воспроизводит более естественную речь. В ходе тестов новая модель WaveNet для американского английского получила среднюю оценку средней субъективной шкалы (MOS) 4,1 по шкале от 1 до 5 — что более чем на 20% лучше, чем у стандартных голосов, и на 70% сокращает разрыв с человеческой речью.


Смотрите 9to5Google на YouTube для получения дополнительных новостей: