Gemini Advanced теперь использует 1.5 Pro: Google раскрывает подробности о расширениях и пользовательских «Gems»

Abner Li | Вторник, 14 мая, 2024, 07:02.

Google анонсировала Gemini 1.5 Pro в феврале и сегодня запускает его в платной подписке Gemini Advanced.

Gemini Advanced с Gemini 1.5 Pro

Ключевая особенность Gemini 1.5 Pro — большое контекстное окно «начиная с 1 миллиона токенов». С момента февральского анонса Google улучшила «генерацию кода, логическое рассуждение и планирование, многооборотный диалог, а также понимание аудио и изображений благодаря улучшениям данных и алгоритмов».

Gemini Advanced теперь может обрабатывать «несколько больших документов общим объемом до 1500 страниц или суммировать 100 электронных писем». В веб-интерфейсе вы сможете «загружать файлы через Google Drive или непосредственно с вашего устройства», чтобы «получать ответы и аналитические сведения о плотных документах». Что касается конфиденциальности, Google заявляет, что «Gemini обеспечивает конфиденциальность ваших файлов, и они не используются для обучения наших моделей».

…например, чтобы выяснить детали политики в отношении домашних животных в вашем договоре аренды или сравнить ключевые аргументы нескольких длинных исследовательских работ.

Предстоящая функция — загрузка и понимание электронных таблиц, а также других файлов данных для анализа, поиска аналитических сведений и создания пользовательских визуализаций и диаграмм. Анализ данных (поддерживаются Google Sheets, CSV и файлы Excel) станет доступен в ближайшие недели.

Реклама — прокрутите, чтобы узнать больше

Тем временем Gemini 1.5 Pro лучше понимает изображения:

«…вы можете сфотографировать блюдо в вашем любимом ресторане и запросить рецепт, или сфотографировать математическую задачу и получить пошаговые инструкции по ее решению — и все это с одного изображения».

Еще одна скоро появится возможность «обрабатывать час видеоконтента или кодовые базы с более чем 30 000 строк».

Gemini Advanced с 1.5 Pro запускается сегодня и доступен на 35+ языках в более чем 150 странах/территориях.

Расширения Gemini

Тем временем расширения Gemini пополняются Google Календарем, Задачи, Keep и так называемыми «Утилитами», такими как приложение Часы, в ближайшие месяцы. Например, вы можете сфотографировать печатную программу с несколькими предстоящими датами, и Gemini создаст для вас события в Календаре.

Сегодня запускается долгожданное расширение YouTube Music, которое позволяет искать песни, «упоминая любимый куплет или исполнителя».

К ним присоединятся существующие для Gmail, Drive и Docs, а также Google Авиабилеты, Отели, Карты и YouTube. Расширения доступны пользователям бесплатной версии Gemini и Gemini Advanced.

Gems

В ближайшие месяцы пользователи Gemini Advanced (и корпоративные клиенты) смогут создавать «Gems» или «настроенные версии Gemini». Примеры включают «приятеля для тренировок, помощника повара, партнера по кодированию или гида по творческому письму».

Просто опишите, что вы хотите, чтобы ваш Gem делал и как он должен отвечать — например, «ты мой тренер по бегу, дай мне ежедневный план бега и будь позитивным, бодрым и мотивирующим». Gemini примет эти инструкции и одним щелчком мыши улучшит их, чтобы создать Gem, отвечающий вашим конкретным потребностям.

Все пользователи Gemini получат доступ к ряду готовых Gems, таких как Learning Coach.

Gemini Advanced: Иммерсивный планировщик

В ближайшие месяцы Gemini Advanced в веб-версии получит «иммерсивный планировщик», который сможет создавать индивидуальный план маршрута на основе временной шкалы. Google утверждает, что этот «новый опыт планирования выйдет за рамки простого списка предлагаемых мероприятий».

Если вы спросите: «Мы с семьей едем в Майами на День труда. Мой сын любит искусство, а мой муж очень хочет свежей рыбы. Можешь ли ты извлечь информацию о моих авиабилетах и отеле из Gmail и помочь спланировать выходные?»

Gemini учитывает время вашего рейса, предпочтения в еде и информацию о местных музеях, а также понимает, где находится каждая точка, и сколько времени займет перемещение между мероприятиями.

Gemini будет учитывать информацию о ваших авиабилетах в Gmail, рекомендации Google Карт по еде и музеям рядом с вашим отелем, а также Поиск других мероприятий, а также время в пути между остановками. Это будет представлено в «динамическом пользовательском интерфейсе» с видом «бок о бок», который позволит вам редактировать визуально или через чат.

Gemini 1.5 Flash, Gemma 2

В сфере разработки Google сегодня представляет 1.5 Flash как свою «самую быструю и универсальную мультимодальную модель ИИ». Она имеет то же контекстное окно в 1 миллион токенов и ориентирована на случаи использования, где наиболее важны низкая задержка и стоимость. Это более легкая модель, чем 1.5 Pro, но сохраняющая возможности мультимодального рассуждения:

Это связано с тем, что она была обучена 1.5 Pro посредством процесса, называемого «дистилляцией», при котором наиболее важные знания и навыки из более крупной модели передаются более мелкой и эффективной модели.

Примеры использования включают суммирование, чат-приложения, подписи к изображениям/видео, извлечение данных из длинных документов и таблиц и многое другое. Flash присоединяется к трем другим размерам, охватывающим диапазон от телефонов до центров обработки данных:

Gemini Nano: Самая эффективная модель для задач на устройстве
Gemini Pro: Лучшая модель для масштабирования на широкий спектр задач
Gemini Ultra: Самая крупная и мощная модель для очень сложных задач

Она доступна в виде публичной предварительной версии через Gemini API в Google AI Studio для более чем 200 стран и территорий, включая ЕЭЗ, Великобританию и Швейцарию, при этом Gemini 1.5 Pro получает аналогичный доступ сегодня.

Тем временем Google осуществляет предварительный просмотр (список ожидания) контекстного окна в 2 миллиона для Gemini 1.5 Pro.

В других областях Gemini API получает возможность «одновременно вызывать несколько функций с параллельным вызовом функций» и «рассуждать с видеоконтентом с помощью нативного извлечения кадров видео».

Скоро появится функция кэширования контекста, которая позволит кэшировать часто используемый контекст или файлы.

Это идеально подходит для сценариев, таких как мозговой штурм идей контента на основе вашей существующей работы, анализ сложных документов или предоставление резюме исследовательских работ и учебных материалов. Кэширование контекста скоро появится в Gemini API.

Тем временем Google продемонстрировала Gemma 2 и версию с 27 миллиардами параметров, которая «превосходит модели вдвое большего размера и работает на одном TPUv5e». Она присоединится к существующим вариантам 2B и 7B

Google также анонсировала свой TPU 6-го поколения под названием «Trillium». Как «самый производительный и энергоэффективный TPU на сегодняшний день», он может похвастаться 4,7-кратным увеличением пиковой вычислительной производительности на чип по сравнению с TPU v5e».