Gemini 1.5 Pro теперь предлагает разработчикам контекстное окно на 2 млн токенов

Вслед за новостями о образовании и Workspace на этой неделе Google представила ряд анонсов Gemini для разработчиков, включая контекстное окно на 2 миллиона токенов для 1.5 Pro.

На конференции I/O 2024 Google анонсировала контекстное окно на 2 миллиона токенов для Gemini 1.5 Pro. Модель может обрабатывать 2 часа видео, 22 часа аудио, более 60 000 строк кода и более 1,4 миллиона слов. (Gemini Advanced с 1.5 Pro сегодня предлагает половину этого объема.) После закрытого предварительного тестирования теперь все разработчики могут использовать эту возможность.

Обработка всего шести минут видео требует более 100 000 токенов, а большие кодовые базы могут превышать 1 миллион токенов — поэтому, независимо от того, включает ли сценарий использования поиск ошибок в бесчисленных строках кода, поиск нужной информации в библиотеках исследований или анализ часов аудио или видео, расширенное контекстное окно Gemini 1.5 Pro помогает организациям добиваться новых успехов.

Gemini 1.5 Pro уже используется ритейлером быстрого питания, финансовым учреждением, страховой компанией и даже «спортивной компанией» для анализа взмаха игрока.

Кроме того, Gemini 1.5 Flash выходит на общий доступ. Он оснащен контекстным окном на 1 миллион токенов, низкой задержкой и «конкурентоспособными ценами». Идеальные сценарии использования включают чат-агентов в розничной торговле, обработку документов и «исследовательских агентов, способных синтезировать целые репозитории».

Реклама — прокрутите для просмотра большего количества контента

Google прямо сравнивает его с GPT-3.5 Turbo сегодня:


  • Контекстное окно на 1 миллион токенов, что примерно в 60 раз больше, чем у GPT-3.5 Turbo.
  • В среднем на 40 % быстрее, чем GPT-3.5 Turbo, при вводе данных объемом 10 000 символов.
  • Цена ввода до 4 раз ниже, чем у GPT-3.5 Turbo, с включенным кэшированием контекста для ввода объемом более 32 000 символов.

Gemma 2, открытая модель Google, теперь доступна по всему миру в версиях с 9 миллиардами и 27 миллиардами параметров.

Тем временем Imagen 3 запускается в режиме предварительного просмотра (для клиентов Vertex AI с ранним доступом). По сравнению с Imagen 2, он предлагает:

  • «более чем на 40% более быстрое создание контента для быстрого прототипирования и итераций»
  • «лучшее понимание запросов и следование инструкциям»
  • «фотореалистичное создание групп людей»
  • «больший контроль над рендерингом текста внутри изображения»

Это запрос для изображения ниже: «Фотореалистичное изображение руки женщины, тянущейся, чтобы коснуться головки семени одуванчика, поля одуванчиков, простирающегося до горизонта, с фразой «Иногда отпустить — самый смелый поступок», написанной изящным курсивом над рукой».