
В ближайшие месяцы Google планирует добавить множество функций на базе искусственного интеллекта в свои продукты, некоторые из которых уже упоминались в слухах о I/O 2023. Gboard для Android сейчас работает над интеграцией генератора изображений по текстовому описанию Imagen.
О APK Insight: В этой статье “APK Insight” мы декомпилировали последнюю версию приложения, загруженного Google в Play Store. Декомпилируя эти файлы (в случае Android-приложений — APK), мы можем видеть различные строки кода, намекающие на возможные будущие функции. Имейте в виду, что Google может как выпустить эти функции, так и не выпустить их, и наша интерпретация того, что они собой представляют, может быть неточной. Мы постараемся включить те, которые ближе к завершению, чтобы показать, как они будут выглядеть, если будут выпущены. Учитывая это, читайте дальше.
В последней бета-версии (12.7.05.507749191) Gboard есть строки, ссылающиеся на “Imagen Keyboard”. Он будет отображаться в полосе/странице ярлыков, как “Буфер обмена”, “Переводчик” и “Одноручный режим”. Разработка еще не зашла далеко.
Анонсированный в мае прошлого года на фоне ажиотажа вокруг DALL-E 2, Imagen сочетает глубокий уровень понимания языка с “беспрецедентной степенью фотореализма”. В прошлогоднем сравнительном тестировании, включавшем VQ-GAN+CLIP, Latent Diffusion Models и DALL-E 2, Google заявляет, что люди-оценщики предпочли “Imagen другим моделям в прямых сравнениях, как по качеству образцов, так и по соответствию изображения тексту”.
Наше ключевое открытие заключается в том, что общие большие языковые модели (например, T5), предварительно обученные на текстовых корпусах, на удивление эффективно кодируют текст для синтеза изображений: увеличение размера языковой модели в Imagen значительно повышает как качество образцов, так и соответствие изображения тексту, больше, чем увеличение размера модели диффузии изображений.
Также сообщается, что Imagen лучше справляется с пространственными отношениями, длинными текстами, редкими словами и сложными запросами. На сегодняшний день Google не публиковала код или публичную демонстрацию, ссылаясь на социальное воздействие. В конце прошлого года компания заявила, что ее работа по преобразованию текста в изображения в конечном итоге будет включена в AI Test Kitchen Season 2:
- City Dreamer: Воображайте город из своего воображения, и модели Google для преобразования текста в изображения воплотят его в жизнь.
- Wobble: Вообразите монстра, используя модели Google для преобразования текста в изображения. Используя методы 2D-в-3D анимации, “раскачайте” его, чтобы он танцевал!
При добавлении в Gboard, Imagen Keyboard может работать аналогично Emoji Kitchen, позволяя комбинировать эмодзи для создания стикеров. Как и в AI Test Kitchen, Imagen в Gboard, предположительно, будет ориентирован на более легкие, выразительные результаты.
Благодарим JEB Decompiler, который помог с некоторыми аналитическими разборами APK.
Дилан Руссель внес вклад в эту статью.