
Ask Photos с поддержкой Gemini появится в Google Фото этим летом, и на этой неделе компания поделилась некоторыми подробностями о том, как она работает.
Команда Google Research называет Ask Photos «мощным примером того, как модели Gemini могут выступать в качестве агентов с помощью вызовов функций и возможностей памяти». Примеры запросов, предоставленных Google вне презентации, включают:
- «Покажи мне лучшую фотографию из каждого национального парка, который я посетил».
- «Какие темы были у дней рождения Лены?»
Ваш диалоговый запрос «передается модели-агенту, которая использует Gemini для определения лучшего инструмента генерации с дополненной выборкой (RAG) для данной задачи».
Как правило, модель-агент начинает с понимания намерения пользователя и формирует поиск по его фотографиям, используя обновленную систему векторной выборки, которая расширяет уже мощный поиск по метаданным, встроенный в Photos.
Эта система лучше понимает концепции естественного языка, такие как «улыбающийся человек на велосипеде», чем поиск по ключевым словам.
Затем модель ответа анализирует фотографии и видео, возвращенные поиском. Для поиска наиболее релевантной информации используются «большое контекстное окно и мультимодальные возможности Gemini». Помимо визуального контента и любого текста, используются даты, местоположения и другие метаданные.
Наконец, модель ответа составляет полезный ответ, основанный на изученных фотографиях и видео.
Интересно то, что вы можете исправлять Ask Photos, и приложение запомнит эту информацию для будущих диалогов. В этом отношении это больше, чем просто функция поиска, и может использоваться как ассистент. Вы сможете «просматривать и управлять сохраненными деталями в любое время».
Эта экспериментальная функция, которая может быть связана с предполагаемым Project Ellman, будет развертываться в ближайшие месяцы, и уже анонсируются новые возможности.