
Многие разработки Google в области машинного обучения являются открытыми, чтобы разработчики могли использовать последние достижения. Последняя версия предназначена для семантической сегментации изображений, или технологии, лежащей в основе портретного режима Pixel 2 с одной камерой.
Эта модель глубокого обучения назначает семантические метки каждому пикселю на изображении. В свою очередь, категоризация позволяет классифицировать объекты, такие как дорога, небо, человек или собака, а также определять, какая часть изображения является фоном, а какая — передним планом.
Применительно к фотографии, последнее используется в портретном режиме Pixel 2 для создания эффекта малой глубины резкости всего с одним физическим объективом. Это использование требует оптимизации, особенно в «точном определении контуров объектов» или способности различать, где заканчивается человек и начинается фон.
Назначение этих семантических меток требует точного определения контуров объектов и, следовательно, накладывает гораздо более строгие требования к точности локализации, чем другие задачи распознавания визуальных сущностей, такие как классификация на уровне изображения или обнаружение по ограничивающим рамкам.
Это стало возможным в DeepLab-v3 благодаря блоку декодера, который оптимизирует производительность, особенно вдоль границ объектов. Выпущенная в понедельник (через The Verge), эта модель семантической сегментации изображений может позволить другим разработчикам создавать функции, подобные портретному режиму Pixel 2, или сегментации видео в реальном времени. Реализованный в TensorFlow, этот релиз также включает в себя код для обучения и оценки моделей.
Google отмечает, что нынешние уровни точности были невообразимы пять лет назад, но стали возможными благодаря достижениям в области аппаратного обеспечения, методов и наборов данных.
Мы надеемся, что публичное предоставление нашей системы сообществу облегчит другим группам в академических кругах и промышленности воспроизведение и дальнейшее совершенствование передовых систем, обучение моделей на новых наборах данных и разработку новых приложений для этой технологии.
Посетите 9to5Google на YouTube для получения других новостей: