Google представила модель PaliGemma 2 для обработки изображений и текста

Abner Li | Четверг, 5 декабря, 2024, 07:33.

После анонса Gemma 2 на конференции I/O 2024 в мае, Google сегодня представляет PaliGemma 2 — свою новейшую открытую модель для обработки изображений и текста (VLM).

Первая версия PaliGemma была выпущена в мае и предназначалась для таких случаев использования, как создание подписей к изображениям и коротким видео, понимание текста на изображениях, обнаружение и сегментация объектов, а также «визуальный ответ на вопросы».

PaliGemma 2 теперь может создавать «длинные подписи», генерируя «подробные, контекстуально релевантные описания изображений, выходящие за рамки простой идентификации объектов, описывая действия, эмоции и общий нарратив сцены». Доступны модели с 3, 10 и 28 миллиардами параметров, а также с разрешением 224px, 448px и 896px.

Также реализованы «точное оптическое распознавание символов и понимание структуры и содержимого таблиц в документах». Google обнаружил, что PaliGemma 2 демонстрирует лидирующую производительность в распознавании химических формул, нотных записей, пространственном мышлении и генерации отчетов о рентгеновских снимках грудной клетки.

Реклама — прокрутите дальше, чтобы увидеть больше контента

Google заявляет, что PaliGemma 2 разработана как «прямая замена» для тех, кто использует оригинальную модель. Разработчики должны получить «немедленное улучшение производительности в большинстве задач без существенных изменений в коде». Еще одним заявленным преимуществом является простота доработки под конкретные задачи.

Предварительно обученные модели и код для PaliGemma 2 доступны сегодня на Kaggle, Hugging Face и Ollama.