
В последние недели AI-генератор изображений DALL-E 2 произвел фурор в Twitter. Сегодня вечером Google обнародовал свою версию под названием «Imagen», которая сочетает в себе глубокое понимание языка с «беспрецедентной степенью фотореализма».
По словам руководителя Google AI Джеффа Дина, подобные системы ИИ «могут раскрыть совместное человеческое/компьютерное творчество», и Imagen — это «одно из направлений, которым [компания] занимается». Прорыв, достигнутый командой Google Research, Brain Team в их диффузионной модели текста в изображения, заключается в уровне реализма. В целом, DALL-E 2 в основном реалистичен в своих результатах, но при более внимательном рассмотрении можно заметить художественные допущения. (Для получения дополнительной информации обязательно посмотрите это видео с объяснением.)
Imagen опирается на мощность больших языковых моделей-трансформеров для понимания текста и использует силу диффузионных моделей для генерации изображений высокой четкости. Наше ключевое открытие заключается в том, что большие языковые модели общего назначения (например, T5), предварительно обученные на корпусах, состоящих только из текста, удивительно эффективны при кодировании текста для синтеза изображений: увеличение размера языковой модели в Imagen повышает как точность выборки, так и соответствие изображения тексту гораздо сильнее, чем увеличение размера диффузионной модели изображения.
Чтобы доказать это достижение, Google создал эталон для оценки моделей «текст в изображение» под названием DrawBench. Оценщики-люди в ходе сравнительных тестов предпочли Imagen другим моделям как по качеству выборки, так и по соответствию изображения тексту. Он сравнивался с VQ-GAN+CLIP, Latent Diffusion Models и DALL-E 2.
Тем временем, метрики, используемые для доказательства того, что Imagen лучше понимает запросы пользователей, включают пространственные отношения, длинный текст, редкие слова и сложные запросы. Еще одно достижение — новая архитектура Efficient U-Net, которая «более эффективна с точки зрения вычислений, более эффективна с точки зрения памяти и быстрее сходится».
Imagen достигает нового передового показателя FID 7,27 на наборе данных COCO, не обучаясь на COCO, и оценщики-люди считают выборки Imagen сопоставимыми с самим набором данных COCO по соответствию изображения тексту.
Что касается социального воздействия, Google «решил не выпускать код или публичную демонстрацию» Imagen в настоящее время, учитывая возможность злоупотребления. Кроме того:
Imagen полагается на текстовые кодировщики, обученные на некурируемых данных в масштабе Интернета, и, таким образом, наследует социальные предубеждения и ограничения больших языковых моделей. Таким образом, существует риск, что Imagen закодировал вредные стереотипы и представления, что обуславливает наше решение не выпускать Imagen для общественного использования без принятия дополнительных мер безопасности.
Тем не менее, на сайте есть интерактивная демонстрация, а исследовательская работа доступна здесь.