
Подобно приложению «Скриншоты», Recorder использует Gemini Nano с мультимодальностью на серии Pixel 9. Google поделился больше деталей об интеграции ранее на этой неделе.
В целом, Recorder отмечает, что прошлогоднее добавление сводок на базе Gemini Nano способствовало «значительному увеличению вовлеченности пользователей и общего удержания». В частности, «пользователи используют новую функцию сводок на базе ИИ в среднем 2–5 раз в день, а общее количество сохраненных записей увеличилось на 24%».
На серии Pixel 9 Recorder использует Gemini Nano с мультимодальностью, которая позволяет обрабатывать ввод изображений и аудио в дополнение к тексту. Модель «значительно больше предыдущей» — конкретно, «почти в два раза больше», а также «более мощная, точная и масштабируемая».
Для разработчиков это означает, что качество «из коробки» не обязательно требует донастройки, что означает большее удобство использования и поддержку более креативных сценариев использования…
Google еще не предоставил подробностей о Gemini Nano с мультимодальностью, хотя на главном выступлении упоминалось, что он «в три раза мощнее и сложнее» оригинального на Pixel 8 Pro. В прошлом году был технический отчет о семействе Gemini 1.0, в котором говорилось, что существуют две версии Gemini 1.0 Nano: «1,8 млрд (Nano-1) и 3,25 млрд (Nano-2) параметров, ориентированные на устройства с низкой и высокой памятью соответственно. Мы не знаем, входит ли новая мультимодальная версия в семейство Gemini 1.5, или ее разработка является частью другой ветви.
В любом случае, расширенная поддержка токенов моделью позволяет Recorder «резюмировать гораздо более длинные стенограммы, чем раньше». Еще одно преимущество, которое стало возможным благодаря мультимодальности, — это «включение грамматики как новой метрики для оценки качества вывода».
Тем временем команда Recorder смогла опереться на существующую работу для внедрения Gemini Nano с мультимодальностью:
Интеграция Gemini Nano с мультимодальностью потребовала еще одного раунда донастройки. Однако разработчики Recorder смогли использовать набор данных для донастройки оригинальной модели Gemini Nano в качестве основы, что упростило процесс разработки.
Помимо приложения Recorder на Pixel Watch 3, которое передает аудиофайл на телефон для транскрипции, Google уже работает над «как минимум двумя другими функциями GenAI, которые помогают людям экономить время». Они уже демонстрируются внутри компании для получения ранней обратной связи.

