Google AI рассказывает о машинном обучении, лежащем в основе приложения Pixel 4 Recorder

Ранее в этом месяце отличное приложение Pixel 4 Recorder стало доступно для более старых телефонов Google. Сегодня компания подробно рассказала о машинном обучении, которое обеспечивает полностью встроенный в устройство инструмент транскрипции.

В посте в блоге Google AI объясняется причина разработки Recorder. А именно, как речь является доминирующей формой передачи информации, но текущие способы ее записи и организации недостаточны. Компания надеется сделать «идеи и разговоры еще более доступными и удобными для поиска».

За последние два десятилетия Google сделал информацию широко доступной с помощью поиска — от текстовой информации, фотографий и видео до карт и вакансий. Но большая часть информации в мире передается через речь. И хотя многие люди используют устройства для записи звука, чтобы фиксировать важную информацию в разговорах, интервью, лекциях и многом другом, может быть очень сложно впоследствии просеивать часы записей, чтобы выявить и извлечь интересующую информацию.

Recorder имеет три составляющие. Транскрипция использует модель автоматического распознавания речи, основанную на полностью нейронной системе, встроенной в устройство, которая впервые появилась в Gboard ранее в этом году. С марта клавиатура Android предлагает опцию «Более быстрая голосовая печать», которую можно загрузить для работы в автономном режиме и которая транскрибирует символ за символом.

Реклама — прокрутите дальше, чтобы увидеть контент

Для Recorder Google оптимизировал модель для длительных сеансов, которые могут длиться часами, а также «сопоставляет слова с временными метками, вычисленными моделью распознавания речи». Этот индекс позволяет пользователям нажимать на слово в транскрипции, чтобы прослушать соответствующий аудиофрагмент.

Следующий аспект — как лучше всего представить информацию. Текст удобен, но визуальный поиск по конкретным моментам и звукам «более полезен». Каждая полоса на звуковой волне составляет 50 миллисекунд, и Google окрашивает ее в зависимости от доминирующего звука в этот период.

Для этого Recorder дополнительно представляет аудио визуально в виде цветной звуковой волны, где каждый цвет ассоциируется с различной категорией звука. Это достигается путем объединения исследований по использованию сверточных нейронных сетей (CNN) для классификации звуков (например, определения лая собаки или звучания музыкального инструмента) с ранее опубликованными наборами данных для обнаружения аудиособытий с целью классификации явных звуковых событий в отдельных аудиокадрах.

Наконец, Google предлагает три тега, которые «представляют самый запоминающийся контент» после завершения записи. Эти предложения можно использовать для составления заголовка, чтобы пользователям не приходилось использовать дату и время в качестве названий.

Чтобы иметь возможность предлагать эти теги сразу после завершения записи, Recorder анализирует содержимое записи по мере ее транскрипции.