
Помимо SoC Tensor в телефонах Pixel, Google разработала другие собственные чипы, и весь дизайн кремния теперь происходит в облаке.
Ранее команда, отвечающая за инфраструктуру разработки чипов Google, использовала «десятки стоек и сотни серверов» в центре обработки данных.
По мере роста количества проектов росли и сложности внедрения: затраты на оборудование ежегодно удваивались, а каждая новая инициатива требовала новых инженеров и инфраструктуры. Когда команда уделяла приоритетное внимание найму инженеров просто для управления и оптимизации устаревших машин, они знали, что теряют из виду свою основную цель: рост и инновации.
Позже эта команда «исследовала гибридное решение, используя внутреннюю среду проектирования программного обеспечения Google и некоторые нагрузки Electronic Design Automation (EDA), отправляемые в Google Cloud».
Хотя этот подход был надежным в краткосрочной перспективе, задержки при передаче рабочих нагрузок для анализа приводили к тому, что инженеры ждали результатов. Дополнительная нагрузка от одновременной работы двух рабочих станций, одной для среды проектирования и одной для результатов в Google Cloud, привела к переосмыслению.
В конечном итоге подразделение по производству чипов решило полностью перейти в облако с помощью внутренней команды «Alphabet Cloud», которая отвечает за «помощь командам по всему Alphabet в ускорении внедрения уникальных предложений Google Cloud для более быстрой разработки и масштабирования, точно так же, как это делает команда платформы клиента». Команда использует Google Kubernetes Engine (GKE) для контейнеров, а также Cloud Storage, Filestore, Cloud Spanner, Big Query и Pub/Sub для данных.
Этот переход позволил группе по производству чипов использовать существующие алгоритмы машинного обучения Google Cloud для «эффективного поиска в больших пространствах и применения уникальных оптимизаций на различных этапах проектирования чипов».
В результате процесс проектирования чипов был сокращен, время выхода на рынок уменьшилось, расширились области применения ускорителей машинного обучения и повысилась эффективность.
Поскольку проще добавлять вычислительные ресурсы, «дизайнеры чипов смогли запускать больше задач для выявления ошибок».
С момента перехода на Google Cloud команда увеличила количество ежедневных подаваемых задач на 170% за последний год, сохраняя при этом постоянную задержку планирования. Рабочая нагрузка поддерживается более чем 250 кластерами GKE в нескольких регионах Google Cloud.
С точки зрения бизнеса произошло снижение эксплуатационных расходов, более быстрое обнаружение ошибок инфраструктуры и «меньше времени на обслуживание центров обработки данных».
Команда заявила, что «все проекты по проектированию чипов Google теперь используют Google Cloud».
Команда дизайнеров чипов запустила полные проекты, созданные с использованием Google Cloud, включая два последних поколения TPU и программу ускорителя видео YouTube — Argos VCU.