Новейшие модели MobileNetV2 от Google для компьютерного зрения стали быстрее и эффективнее

В прошлом году Google представила серию мобильных нейронных сетей для компьютерного зрения, которые позволяют классифицировать и обнаруживать изображения, оставаясь быстрыми и энергоэффективными, учитывая ограничения работы на устройстве. Сегодня компания предоставляет MobileNetV2 с несколькими улучшениями производительности.

Это «следующее поколение сетей для компьютерного зрения на устройстве» основано на MobileNetV1 и добавляет две новые функции в архитектуру:

1) линейные «бутылочные горлышки» между слоями
Идея заключается в том, что «бутылочные горлышки» кодируют промежуточные входы и выходы модели, в то время как внутренний слой инкапсулирует способность модели преобразовываться из низкоуровневых концепций, таких как пиксели, в высокоуровневые дескрипторы, такие как категории изображений.

2) короткие соединения между «бутылочными горлышками»
Наконец, как и в случае с традиционными остаточными соединениями, короткие соединения обеспечивают более быстрое обучение и лучшую точность.

В результате MobileNetV2 работает быстрее в целом, сохраняя прежние показатели точности. Однако в некоторых случаях он также достигает более высоких показателей в последнем бенчмарке:

Реклама — прокрутите дальше для просмотра контента

В частности, новые модели используют в 2 раза меньше операций, требуют на 30% меньше параметров и примерно на 30-40% быстрее на телефоне Google Pixel по сравнению с моделями MobileNetV1, при этом достигая более высокой точности.

Другие области улучшения включают обнаружение объектов и семантическую сегментацию на устройстве, которая отвечает за такие функции, как замена фона без необходимости использования зеленого экрана в YouTube и портретный режим.

MobileNetV2 выпущен как часть библиотеки классификации изображений TensorFlow-Slim, или вы можете начать исследовать MobileNetV2 прямо сейчас в coLaboratory. В качестве альтернативы вы можете скачать ноутбук и изучить его локально с помощью Jupyter. MobileNetV2 также доступен в виде модулей на TF-Hub, а предварительно обученные контрольные точки можно найти на github.


Смотрите 9to5Google на YouTube для получения дополнительных новостей: