Google детализирует улучшения режима «Портрет» на Pixel 3 с помощью машинного обучения для определения глубины

Abner Li | Четверг, 29 ноября, 2018, 01:29.

В отличие от других камер смартфонов, имеющих режим «Портрет», линейка Pixel обходится одной основной камерой. С Pixel 3 Google обратилась к машинному обучению для улучшения оценки глубины и «достижения еще лучших результатов в режиме «Портрет».

С Pixel 2 Google могла рассчитывать глубину в изображении с помощью одной камеры, используя двойные пиксели автофокуса или пиксели фазовой автофокусировки (PDAF). На высоком уровне нейронная сеть определяет, «какие пиксели относятся к людям, а какие — к фону».

Пиксели PDAF захватывают два слегка отличающихся вида сцены и ищут горизонтальное смещение параллакса на заднем плане:

Реклама — прокрутите, чтобы увидеть больше контента

Поскольку параллакс является функцией расстояния точки от камеры и расстояния между двумя точками обзора, мы можем оценить глубину, сопоставляя каждую точку в одном виде с соответствующей точкой в другом виде.

Однако этот метод затруднителен, учитывая насколько незначительно смещение, что приводит к ошибкам в оценке глубины и «неприятным артефактам».

Оценка глубины на основе обучения приводит к меньшему количеству ошибок

С Pixel 3 Google искала другие визуальные подсказки в изображении, а затем использовала машинное обучение для обучения алгоритма.

Например, точки, находящиеся далеко от плоскости фокусировки, выглядят менее резкими, чем точки, находящиеся ближе, что дает нам подсказку глубины по расфокусировке.

Кроме того, даже при просмотре изображения на плоском экране мы можем точно определить расстояние до объектов, потому что знаем примерный размер повседневных предметов (например, можно использовать количество пикселей в фотографии лица человека, чтобы оценить его удаленность). Это называется семантической подсказкой.

Данные для обучения собирались с помощью установки «Франкенфон», состоящей из пяти телефонов Pixel 3, запрограммированных по Wi-Fi для одновременной съемки изображения. Высококачественная глубина затем вычисляется с использованием методов структурирования движения и многовидовой стереоскопии.

В частности, мы обучаем сверточную нейронную сеть, написанную на TensorFlow, которая принимает в качестве входных данных пиксели PDAF и учится предсказывать глубину. Этот новый и усовершенствованный метод оценки глубины на основе машинного обучения является основой режима «Портрет» на Pixel 3.

Чтобы обеспечить быстрые результаты, мы используем TensorFlow Lite, кроссплатформенное решение для запуска моделей машинного обучения на мобильных и встраиваемых устройствах, а также мощный графический процессор Pixel 3 для быстрого вычисления глубины, несмотря на наши аномально большие входные данные. Затем мы объединяем полученные оценки глубины с масками из нашей нейронной сети сегментации людей для создания красивых результатов в режиме «Портрет».

Посетите 9to5Google на YouTube, чтобы узнать больше новостей: