写点什么

谷歌云服务故障原因分析和补救措施

  • 2018-07-27
  • 本文字数:756 字

    阅读完需:约 2 分钟

谷歌公布了近期的一个事件的根本原因分析结果,该事件影响了谷歌的部分云服务,并在大约 32 分钟的时间内将错误率提高了 33%至 87%,后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户,包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误,这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址,极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能,该服务利用第一层谷歌前端(GFE)就近接收用户请求,并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络,将请求发送到相应的后端,而不管它们位于哪个区域。

事件的根本原因是,为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的,它会导致 GFE 随机重启,而在重启过程中,服务容量丢失。

所幸的是,包含该错误的功能尚未投入使用,因此谷歌工程师通过恢复配置变更来部署修复程序,服务在几分钟后恢复其正常行为,在缓存热身后故障率也恢复正常。

为了预防事件再次发生,除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外,Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离,以缩小故障范围,并为 GFE 池的配置变更创建仪表盘,让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明

查看英文原文 Google Cloud Incident Root-cause Analysis and Remediation

2018-07-27 05:362537
用户头像

发布了 731 篇内容, 共 448.8 次阅读, 收获喜欢 2002 次。

关注

评论

发布
暂无评论
发现更多内容

安徽等级保护测评机构名单【2025】

行云管家

等保 等保测评 安徽

广告行业需要用到堡垒机的几个原因分析-行云管家

行云管家

广告 等保 等保测评

电子电器组装行业MES系统解决方案

万界星空科技

mes 万界星空科技mes 电子mes 电子行业 电子电器行业

SqlServer 到 TiDB(DATAX)

TiDB 社区干货传送门

星辰资讯 | TiDB v7.5.4 & v8.4.0 发版

TiDB 社区干货传送门

版本升级

数据规模超 1PB !揭秘网易游戏规模化 TiDB SaaS 服务建设

TiDB 社区干货传送门

集群管理

TiDB数据库的垃圾回收机制

TiDB 社区干货传送门

监控 管理与运维

【JIT/极态云】技术文档--Excel模板

武汉万云网络科技有限公司

一文解读GaussDB(DWS)监控运维诊断优化能力

华为云开发者联盟

sql 数据仓库 GaussDB

从 Oracle 迁移到 TiDB (OGG)

TiDB 社区干货传送门

SQL Server 迁移到 TiDB

TiDB 社区干货传送门

金字塔原理:解决问题的高效思维框架

易成研发中心

项目管理 金字塔原理

Linux 文件处理命令:掌握文件管理的利器

测试人

软件测试

从 DB2 迁移到 TiDB (CDC)

TiDB 社区干货传送门

百度多模态大模型内容安全解决方案获WitAwards 2024年度大奖

百度安全

【JIT/极态云】技术文档--日期字段任务

武汉万云网络科技有限公司

从 MongoDB 迁移到 TiDB

TiDB 社区干货传送门

空壳产品之路:直面自身的缺点

iofomo

产品 设计 工具 摸鱼 微信分身

图文教程 | 阿里云市场 Serverless GreptimeDB 购买和使用指南

Greptime 格睿科技

数据库 阿里云 使用指南

测试如何帮助开发同学更愉快的“修BUG”

Hi-CodeCaptain

软件质量 测试覆盖率 精准测试 bug 软件项目管理

智源六周年 | 矢志星海,奋楫争先

智源研究院

【GreatSQL优化器-02】索引和Sargable谓词

GreatSQL

淘宝商品详情API:如何通过商品ID获取全面信息

代码忍者

API 接口 pinduoduo API

基于 TiDB Vector 开发的 TiDB AI 小助手上线啦!招募 200 名试用体验官,开启高效问题解决之旅

TiDB 社区干货传送门

我们是如何实现 TiDB Cloud Serverless 的 - 成本篇

TiDB 社区干货传送门

TiDB Cloud

鸿蒙Navigation拦截器实现页面跳转登录鉴权方案

龙儿筝

鸿蒙

利用官方授权API接口item_get_app,深度挖掘淘宝/天猫APP商品详情数据

代码忍者

API 接口 pinduoduo API

从模型到应用,大模型产业落地进入加速期

Geek_2d6073

Downie 4 for Mac(网站在线视频下载工具)

Mac相关知识分享

TiDB v8.5 LTS 新版本解密

TiDB 社区干货传送门

数据库前沿趋势 8.x 实践

万界星空科技装备制造业MES解决方案

万界星空科技

mes 万界星空科技mes 装配行业 装配制造业 装配行业MES

谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章