Google AI рассказывает, как Pixel 3 снимает и выбирает Top Shot

Top Shot — одна из многих функций камеры на базе ИИ, представленных Google вместе с Pixel 3. Теперь Google AI подробно описывает, как работает эта умная функция и какие качества ваш телефон ищет, предлагая альтернативный кадр.

В общих чертах, Top Shot сохраняет и анализирует кадры за 1,5 секунды до и после нажатия кнопки спуска затвора. Захватывается до 90 изображений, из которых Pixel 3 выбирает до двух альтернативных кадров для сохранения в высоком разрешении.

Сначала обрабатывается и сохраняется кадр, сделанный в момент нажатия затвора. Затем сохраняются лучшие альтернативные кадры. Google Visual Core в Pixel 3 используется для обработки этих лучших альтернативных кадров как HDR+ изображений с очень небольшой дополнительной задержкой, и они встраиваются в файл Motion Photo.

Работа над Google Clips вдохновила функцию Pixel 3, в результате чего компания создала модель компьютерного зрения для распознавания трех ключевых атрибутов, связанных с «лучшими моментами».

Реклама – прокрутите дальше для получения дополнительного контента

  1. Функциональные качества, такие как освещение
  2. Объективные атрибуты (открыты ли глаза у объекта? Улыбается ли он?)
  3. Субъективные качества, такие как эмоциональные выражения

Наша нейронная сеть в ранних слоях обнаруживает низкоуровневые визуальные атрибуты, например, размыт ли объект, а затем выделяет дополнительные вычислительные ресурсы и параметры для более сложных объективных атрибутов, таких как открыты ли глаза у объекта, и субъективных атрибутов, например, есть ли эмоциональное выражение веселья или удивления.

По данным Google, Top Shot отдает приоритет анализу лиц, но компания также работала над определением «хороших моментов, в которых лица не являются основным объектом». Были созданы дополнительные метрики для общей оценки качества кадра:

  • Оценка выраженности движения объекта — низкоуровневое оптическое течение между текущим и предыдущим кадрами оценивается в ISP для определения наличия выраженного движения объектов в сцене.
  • Общая оценка размытия при движении — оценивается на основе движения камеры и времени экспозиции. Движение камеры вычисляется из данных гироскопа и OIS (оптической стабилизации изображения).
  • Оценки «3A» — также учитываются состояние автоэкспозиции, автофокуса и автобаланса белого.

Все отдельные оценки используются для обучения модели, предсказывающей общий балл качества, который соответствует предпочтениям человека-оценщика для кадров, чтобы максимизировать качество конечного продукта.

В процессе разработки Google учитывал, что пользователи считают лучшим снимком. Были собраны данные от сотен добровольцев, которых просили выбрать лучшие кадры. Другие предпринятые шаги включают улучшения, направленные на избежание размытия и обработку нескольких лиц.

Подробнее о Pixel 3:


Смотрите 9to5Google на YouTube для получения других новостей: