Google анонсировала TPU Ironwood 7-го поколения, модель text-to-music Lyria и многое другое

Abner Li | Среда, 9 апреля, 2025, 07:48.

Помимо последних новинок Workspace на Cloud Next 2025, Google сегодня представила Ironwood, свои тензорные процессоры (TPU) 7-го поколения, и новейшие генеративные модели.

Ironwood

TPU Ironwood — это «самый производительный и масштабируемый пользовательский ускоритель ИИ от Google на сегодняшний день», отличающийся энергоэффективностью и являющийся «первым, разработанным специально для инференса». В частности:

Ironwood представляет собой значительный сдвиг в развитии ИИ и инфраструктуры, поддерживающей его прогресс. Это переход от моделей ИИ, реагирующих на запросы и предоставляющих информацию в реальном времени для интерпретации людьми, к моделям, которые проактивно генерируют инсайты и интерпретации. Это то, что мы называем «эпохой инференса», когда ИИ-агенты будут проактивно извлекать и генерировать данные для совместного предоставления инсайтов и ответов, а не просто данных.

Ironwood разработан для удовлетворения потребностей «мыслящих моделей», которые «включают большие языковые модели (LLM), Mixture of Experts (MoE) и продвинутые задачи рассуждения», требующие «массивной» параллельной обработки и эффективного доступа к памяти. Последнее достигается за счет минимизации «перемещения данных и задержек на чипе при выполнении массивных тензорных манипуляций».

На переднем крае вычислительные потребности мыслящих моделей выходят далеко за рамки возможностей одного чипа. Мы разработали TPU Ironwood с низколатентной сетью ICI с высокой пропускной способностью для поддержки скоординированного, синхронного обмена данными в масштабе всего TPU pod.

Клиенты Google Cloud могут получить доступ к конфигурации с 256 или 9 216 чипами — каждый отдельный чип обеспечивает пиковую производительность 4 614 TFLOPs. Последняя конфигурация — это pod, обладающий общей мощностью 42,5 эксафлопс, или: «более чем в 24 раза больше вычислительной мощности крупнейшего суперкомпьютера в мире — El Capitan, который предлагает всего 1,7 эксафлопса на pod».

Реклама — прокрутите для просмотра большего количества контента

Ironwood обеспечивает производительность на ватт в 2 раза выше по сравнению с TPU Trillium 6-го поколения, анонсированным в 2024 году, а также 192 ГБ памяти High Bandwidth Memory на чип (в 6 раз больше, чем у Trillium).

Pathways — это распределенная среда выполнения Google, которая используется для внутреннего крупномасштабного обучения и инференс-инфраструктуры. Теперь она доступна для клиентов Google Cloud.

Gemini 2.5 Flash

Gemini 2.5 Flash — это «рабочая лошадка» Google, где приоритет отдается низкой задержке и стоимости. Вскоре он будет доступен в Vertex AI и будет оснащен «динамическими и управляемыми рассуждениями».

Модель автоматически регулирует время обработки («бюджет размышлений») в зависимости от сложности запроса, обеспечивая более быстрые ответы на простые запросы. Вы также получаете детальный контроль над этим бюджетом, позволяя точно настраивать баланс скорости, точности и стоимости для ваших конкретных нужд. Эта гибкость является ключом к оптимизации производительности Flash в приложениях с большим объемом и чувствительностью к стоимости.

Примеры высокообъемных сценариев использования включают обслуживание клиентов и обработку информации в реальном времени.

Gen AI модели

Google теперь предоставляет свою модель генерации музыки по тексту Lyria корпоративным клиентам «в предварительной версии с белым списком» в Vertex AI. Эта модель может генерировать высококачественный аудиоконтент в различных жанрах. Компании могут использовать ее для быстрого создания саундтреков, соответствующих «уникальной идентичности бренда». Еще одно применение — для видеопродакшена и подкастинга:

Lyria устраняет эти препятствия, позволяя создавать пользовательские музыкальные треки за считанные минуты, напрямую соответствуя настроению, темпу и повествованию вашего контента. Это может ускорить рабочие процессы продакшена и снизить затраты на лицензирование.

Ниже приведен пример запроса: «Создайте высокооктавный бибоп-трек. Приоритет отдается головокружительным соло на саксофоне и трубе, с быстрыми сложными пассажами. Пианино должно обеспечивать перкуссионное, аккордовое сопровождение, а бас-гитара и быстрая барабанная дробь должны поддерживать энергичный ритм. Тон должен быть захватывающим и интенсивным. Передайте атмосферу позднего ночного, прокуренного джаз-клуба, демонстрируя виртуозность и импровизацию. Слушатель не должен иметь возможности усидеть на месте».

Тем временем Veo 2 получает возможности редактирования, позволяющие изменять существующий видеоматериал:

Inpainting: Получайте чистые, профессиональные правки без ручной ретуши. Вы можете удалять нежелательные фоновые изображения, логотипы или отвлекающие элементы из своих видео, заставляя их плавно и идеально исчезать в каждом кадре, как будто их там никогда и не было.
Outpainting: Расширяйте кадр существующей видеозаписи, преобразуя традиционное видео в оптимизированные форматы для веб- и мобильных платформ. Это упрощает адаптацию вашего контента для различных размеров экрана и соотношений сторон — например, преобразование ландшафтного видео в портретное для коротких роликов в социальных сетях.

Аналогично, Imagen 3 Editing включает улучшения в области inpainting «для реконструкции отсутствующих или поврежденных частей изображения», а также удаление объектов.

Chirp 3 — это модель Google для понимания и генерации аудио. Она предлагает «HD-голоса» с естественной и реалистичной речью на более чем 35 языках с восемью вариантами дикторов. Аспект понимания поддерживает новую функцию, которая «точно разделяет и идентифицирует отдельных говорящих в многоголосых записях» для лучшей транскрипции.

Еще одна новая функция позволяет Chirp 3 «генерировать реалистичные пользовательские голоса из 10-секундного аудиовхода».

Это позволяет предприятиям персонализировать колл-центры, разрабатывать доступный контент и создавать уникальные голоса брендов, сохраняя при этом единую идентичность бренда. Для обеспечения ответственного использования функция Instant Custom Voice включает встроенные функции безопасности, а наш процесс внесения в белый список включает тщательную проверку надлежащих разрешений на использование голоса.

Что касается безопасности, «SynthID от DeepMind встраивает невидимые водяные знаки в каждый кадр изображения, видео и аудио, которые генерируют Imagen, Veo и Lyria».