Google рассматривает ИИ, транскрипцию для поиска, анализа и мгновенного перевода подкастов

Всего в прошлом месяце приложение Google значительно обновило свой встроенный плеер подкастов, добавив главную страницу и подписки. Серия интервью на этой неделе раскрыла, что у Google есть более масштабные амбиции в области подкастов, основанные на ИИ и транскрипции, которые позволяют проводить семантический анализ и массовый поиск.

В беседе с Pacific Content менеджер по продукту Google Podcasts Зак Ренео-Виндин обсуждал будущее в пятой и заключительной части своего длинного интервью. С оговоркой, что это «видение, вероятно, немного более долгосрочное», Google однажды сможет «транскрибировать подкаст и использовать это для понимания более подробной информации о подкасте, включая то, когда обсуждаются различные темы в эпизоде».

У Google уже есть эта технология транскрипции, особенно с последней версией Cloud Speech-to-Text, анонсированной ранее в этом месяце. Являясь частью Google Cloud, сторонние компании могут использовать эту службу распознавания речи в колл-центрах и для транскрипции спортивных игр.

Реклама — прокрутите дальше, чтобы увидеть больше контента

В последнем случае Cloud Speech-to-Text уже рассчитана на более чем четыре динамика с фоновым шумом и продолжительностью более двух часов. Учитывая, что подкасты имеют такое же качество звука, как и телевизионные трансляции, это не слишком надуманная возможность.

Возможность массовой транскрипции подкастов открывает ряд возможностей, включая временные метки, индексацию содержимого и упрощение поиска текста. Например, первая из них позволит пользователям перейти непосредственно к разделу из результатов Ассистента или Поиска.

Это позволит Google «понимать» тему и то, что обсуждается, подобно тому, как Knowledge Graph используется для предоставления ответов, поскольку он знает о взаимосвязях между вещами.

Предположим, вы фанат «Пэкерс» и спросили умную колонку: «Какой на вкус The Impossible Burger?» Что, если бы вам ответил Аарон Роджерс, рассказав, что он думает о The Impossible Burger?

… услышать это из голоса, который вы узнаете, и от личности, с которой вы знакомы и которой доверяете, может быть действительно классным опытом.

Это также позволяет использовать такие функции, как «Lookahead Scrubbing», что эквивалентно перемотке с предварительным просмотром видеоклипа. Отметив, что Google «заинтересован в изучении» этой функции, она будет «предварительно просматривать при перемотке» для более точной навигации.

Перевод — еще одна возможность, где транскрипция позволяет использовать Text-to-Speech — еще одну существующую возможность Google, предлагаемую сторонним разработчикам. В конечном итоге, как отмечает Ренео-Виндин, ярлык приложения Google является «отправной точкой» для большего числа этих захватывающих функций в «ближайшие месяцы и годы».


Смотрите 9to5Google на YouTube для получения новостей: