
В дополнение к Imagen, Google разработала еще один генератор изображений по текстовому описанию под названием Parti, который также стремится к фотореализму, но использует другое семейство генеративных моделей.
Pathways Autoregressive Text-to-Image (Parti) использует авторегрессионную модель, которая может «использовать преимущества достижений в области больших языковых моделей». Для сравнения, Imagen использует диффузию, где модель учится преобразовывать узор случайных точек в изображения.
Подход Parti сначала преобразует коллекцию изображений в последовательность кодовых записей, похожих на кусочки пазла. Затем заданный текстовый запрос переводится в эти кодовые записи, и создается новое изображение. Этот подход использует существующие исследования и инфраструктуру для больших языковых моделей, таких как PaLM, и имеет решающее значение для обработки длинных, сложных текстовых запросов и создания высококачественных изображений.
Google обнаружила, что Parti может «обрабатывать длинные, сложные запросы», которые:
- Точно отражают знания о мире
- Состоят из множества участников и объектов с мелкими деталями и взаимодействиями
- Соответствуют определенному формату и стилю изображения
Как и в случае с Imagen, Google решила не предоставлять «модели, код или данные Parti для общественного использования без дополнительных мер безопасности». Все изображения снабжены водяными знаками в правом нижнем углу.
Современные модели, такие как Parti, обучаются на больших, часто зашумленных наборах данных «изображение-текст», которые, как известно, содержат предубеждения в отношении людей разного происхождения. Это приводит к тому, что такие модели, включая Parti, создают стереотипные представления, например, о юристах, бортпроводниках, домохозяйках и так далее, а также отражают западные предубеждения в отношении таких событий, как свадьбы.
Google изучает эту область и считает, что подобные инструменты «могут раскрыть совместное человеко-компьютерное творчество». Полный исследовательский документ по Parti доступен здесь, а интерактивный веб-сайт позволяет изменять текстовые запросы.
Наша цель — безопасно и ответственно привнести в мир пользовательские возможности на основе этих моделей, которые будут вдохновлять на творчество