
Google начал неделю с крупного сбоя, который затронул Gmail, Drive и все остальные приложения Workspace. Как и обещала, Google теперь подробно объяснила причину сбоя и шаги, которые будут предприняты для предотвращения подобных инцидентов в будущем.
На высоком уровне проблема связана с работой по обновлению системы аутентификации учетных записей Google. Во время этого процесса предыдущие компоненты были «оставлены на месте». Сохранение этих старых элементов привело к ошибке о нулевом использовании, и Google установила льготный период для задержки воздействия.
Эта исправительная мера истекла, и автоматизированные системы начали реагировать на ошибку так, как если бы она была реальной. Поскольку использование казалось нулевым, мощность системы управления идентификацией была сокращена. Несмотря на наличие защитных механизмов, они не были рассчитаны на конкретную проблему.
Проблема начала затрагивать пользователей в 3:47 по тихоокеанскому времени, а инженеры были оповещены минуту спустя. «Приложения Workspace были недоступны в течение всего инцидента», поскольку они полагаются на затронутую инфраструктуру для обеспечения входа, аутентификации и авторизации для просмотра контента, такого как электронные письма и документы.
В 04:08 была определена основная причина и возможное решение, что привело к отключению принудительного квотирования в одном из дата-центров в 04:22. Это быстро улучшило ситуацию, и в 04:27 такая же мера была применена ко всем дата-центрам, что привело к возвращению показателей ошибок к нормальным уровням к 04:33.
Компания изложила планы по пересмотру, улучшению и оценке своих систем для предотвращения подобных проблем. Google закончил объяснение сбоя извинениями:
Мы хотели бы извиниться за масштаб воздействия, которое этот инцидент оказал на наших клиентов и их бизнес. Мы очень серьезно относимся к любым инцидентам, влияющим на доступность и надежность наших клиентов, особенно к инцидентам, охватывающим несколько регионов.
Полное техническое объяснение доступно здесь.