Google раскрыла причины и масштаб воскресного сбоя

В воскресенье днем облачные сервисы Google испытали значительные перебои в работе, которые продлились несколько часов и затронули сторонние приложения. Сегодня Google подробно описала причину сбоя и меры, которые предпринимаются для предотвращения подобных инцидентов в будущем.

Google начала с извинений за сбой, который привел к «низкой производительности и повышенному количеству ошибок в работе нескольких сервисов Google». С проблемами столкнулись такие потребительские продукты, как YouTube, Gmail, Drive и другие, а также сторонние сервисы, зависящие от Google Cloud, например, iCloud от Apple и Snapchat.

  • YouTube зафиксировал 10%-ное снижение глобального числа просмотров во время инцидента.
  • Google Cloud Storage отметил 30%-ное снижение трафика.
  • Примерно 1% активных пользователей Gmail столкнулись с проблемами в работе своих аккаунтов; хотя это и небольшая доля пользователей, она все же представляет миллионы людей, которые не могли получать или отправлять электронную почту.
  • Низкоскоростные сервисы, такие как Google Поиск, зафиксировали лишь кратковременное увеличение задержки, поскольку они переключились на обслуживание из незатронутых регионов, а затем вернулись к нормальной работе.

Проблема была вызвана «изменением конфигурации», предназначенным для «небольшого количества серверов в одном регионе», которое случайно было применено к «большему количеству серверов в нескольких соседних регионах». Это привело к тому, что регионы Google Cloud перестали использовать более половины доступной сетевой емкости, что вызвало перегрузку.

Реклама — прокрутите дальше для просмотра контента

Сетевой трафик в эти регионы и из них пытался уместиться в оставшуюся пропускную способность сети, но ему это не удалось. Сеть перегрузилась, и наши сетевые системы корректно отсортировали перегрузку трафика и отбросили более крупный, менее чувствительный к задержкам трафик, чтобы сохранить потоки трафика, более чувствительные к задержкам, подобно тому, как срочные пакеты могут доставляться велосипедом даже в условиях самой худшей пробки.

Хотя проблема была обнаружена «в течение нескольких секунд», та же сетевая перегрузка мешала инженерам восстанавливать правильные конфигурации. В сегодняшнем сообщении упоминается, что Google привлекает «дополнительную помощь» для параллельного выполнения восстановительных работ.

После оповещения инженерные команды быстро определили причину сетевой перегрузки, но та же сетевая перегрузка, которая вызывала деградацию сервисов, также замедлила способность инженерных команд восстанавливать правильные конфигурации, продлевая время сбоя.

Google в настоящее время работает над тем, чтобы подобные каскадные события не повторились:

Все сервисы восстановлены до нормальной работы, и инженерные команды Google проводят тщательный анализ, чтобы убедиться, что мы понимаем все факторы, способствующие как потере сетевой емкости, так и медленному восстановлению. Затем мы проведем целенаправленный инженерный спринт, чтобы убедиться, что мы не только устранили непосредственную причину проблемы, но и защитились от всего класса проблем, проиллюстрированных этим событием.