
Функция Google Live Captions становится богаче благодаря новым «выразительным субтитрам» на основе искусственного интеллекта, которые передают больше, чем базовый язык, включая звуки и действия. Google также добавляет Gemini 1.5 для вопросов и ответов по изображениям в приложение Lookout.
Live Caption является неотъемлемой частью линейки Google Pixel с 2019 года. Эта функция позволяет пользователям вставлять субтитры там, где их обычно нет, используя SoC Tensor телефона и бортовую обработку. Когда через видео или другой медиаплеер воспроизводится звук, телефон Pixel улавливает речь и отображает ее в том виде, в каком слышит. Это полезно для самых разных пользователей, особенно для тех, кто плохо слышит.
Live Captions получает обновленный режим для более динамичной обработки звука. Google объявил, что Expressive Captions позволит пользователям видеть нюансы речи и действий в медиа через Live Captions, используя ИИ на устройстве. Это включает в себя декодирование тона, громкости и окружающих сигналов. Изменение будет динамически отражать способ представления речи.
Google приводит несколько примеров того, как это будет работать. Когда кто-то кричит что-то, эта интенсивность переводится в субтитры заглавными буквами. Если бы кто-то кричал, субтитры отражали бы громкость. Выразительные субтитры Google с использованием ИИ также могут декодировать вокальные взрывы, такие как вздохи и стоны, детализируя мелкие звуки между словами. Даже окружающие звуки представлены, чтобы заполнить пробелы вокруг речи.
Кроме того, Google объявил, что описания изображений теперь могут зачитываться вслух. Вместе с этим компания добавляет Gemini 1.5 Pro в приложение Lookout — приложение, которое помогает слабовидящим. Функция вопросов и ответов, позволяющая пользователям задавать вопросы об изображении, теперь станет немного более мощной. Изображение будет описываться более естественным голосом с помощью модели Gemini и сможет предоставлять больше информации об окружающей среде, помимо простого описания.

Отмечается, что выразительные ИИ-субтитры Google являются частью Live Caption, поэтому нет никаких ограничений на то, какие устройства Pixel могут их использовать. Если Live Caption доступна, это обновление будет отражено. Google отмечает, что функция не будет совместима с телефонными звонками, хотя это может измениться со временем.