谷歌云服务故障原因分析和补救措施_语言 & 开发_Sergio De Simone_InfoQ精选文章

AI 时代下组织如何快速变革？如何提升全员 AI 技能？戳> 了解详情 



 写点什么

登录/注册

谷歌公布了近期的一个事件的根本原因分析结果，该事件影响了谷歌的部分云服务，并在大约 32 分钟的时间内将错误率提高了 33％至 87％，后续他们将采取措施改善平台性能和可用性。

该事件影响了很多依赖 Google HTTP(S) 负载均衡器的谷歌服务的客户，包括 Google Kubernetes Engine、Google App Engine、Google Cloud Functions、Stackdriver Web UI、Dialogflow 和 Cloud Support Portal/API。客户在大约 32 分钟的时间内随机收到 502 错误码或连接被重置的错误，这是从谷歌工程师接收到监控系统发出故障率警报的那一刻开始到部署修复程序的时间。

Google HTTP(S) 负载均衡旨在均衡多个后端实例和多个区域的 HTTP 和 HTTPS 流量。它的一个好处是云应用程序可以使用单个全局 IP 地址，极大地简化了 DNS 设置。为了在连接设置期间实现最佳性能，该服务利用第一层谷歌前端（GFE）就近接收用户请求，并将请求转发到第二层 GFE。第二层 GFE 构成全局服务器网络，将请求发送到相应的后端，而不管它们位于哪个区域。

事件的根本原因是，为了提高第二个 GFE 层的安全性和性能而添加的新功能中包含未检测到的错误。该错误是由生产环境中的一个配置变更引发的，它会导致 GFE 随机重启，而在重启过程中，服务容量丢失。

所幸的是，包含该错误的功能尚未投入使用，因此谷歌工程师通过恢复配置变更来部署修复程序，服务在几分钟后恢复其正常行为，在缓存热身后故障率也恢复正常。

为了预防事件再次发生，除了改进 GFE 测试栈并添加更多安全措施以防止未在使用中的功能被错误投入使用外，Google Cloud 团队还计划改善 GFE 池不同分片之间的隔离，以缩小故障范围，并为 GFE 池的配置变更创建仪表盘，让工程师更容易识别有问题的系统变更。

详细信息请阅读谷歌官方事故声明。

查看英文原文： Google Cloud Incident Root-cause Analysis and Remediation

评论

发布

暂无评论

AI口语练习APP的场景测试

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

Navicat Premium 16 全面的数据库管理软件中文版安装包-Mac/win

AI口语练习的场景模拟

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI英语学习

数字水印系统（源码+文档+部署+讲解）

深圳亥时科技

碳课堂｜氢能--双碳目标下的未来能源之星

碳中和新能源碳管理氢能

写代码的时候应该靠感觉还是靠理性

打造高效电商解决方案：淘宝API集成开发指南（商品详情速览与关键词搜索优化，支持高并发，助力自营商城快速上架）

淘宝API接口

ACDSee Photo Studio 8：专业数字影像处理新标杆

如何区分AI智能体、自动化工作流和PRA？

2025-01-22：使二进制数组全部等于 1 的最少操作次数Ⅱ。用go语言，给定一个二进制数组 nums，你可以对数组进行以下操作任意次（包括0次）：选择任何一个下标 i，并将从该下标开始到数组末

福大大架构师每日一题

福大大架构师每日一题

智慧菜场系统（源码+文档+部署+讲解）

深圳亥时科技

新客户 | 时序数据库TDengine 携手新疆油田，让油气生产更高效

tdengine 时序数据库

区块链智能合约的安全性

北京木奇移动技术有限公司

智能合约区块链技术软件外包公司

时序数据库 TDengine 与上海电气工业互联网平台完成兼容性认证

tdengine 时序数据库

FeelYourSound HipHopEngine Pro for mac(创作专业的嘻哈和 Trap 音乐)

GForce Bass Station for mac(合成器插件) v1.0.0激活版

GraphicConverter 12：Mac平台图像处理的全能选手

数据迁移丨借助 pg2mysql 从 PostgreSQL 到 GreatSQL

Bartender 5 for mac(菜单栏图标管理软件)v5.2.7中/英激活版

如何迅速并识别处理MDL锁阻塞问题

华为云开发者联盟

MySQL 华为云 GaussDB mdl TaurusDB

微帧科技携手行业精英，共编《移动场景扩展现实超高清技术白皮书》

微帧Visionular

VNC Server for Mac：高效便捷的远程桌面管理解决方案

AI口语练习APP的功能测试

北京木奇移动技术有限公司

软件外包公司 AI口语练习 AI口语测试

塑胶行业生产管理智能化转型

万界星空科技

制造业 mes 万界星空科技塑胶地板行业塑胶行业

课程实录 | Ingress Controller 与 Master 的通讯机制

NGINX开源社区

Kubernetes k8s 学习资料 NGINX Ingress Controller kubernetes 运维

音乐创作软件 Ableton Live 12 Suite许可证密钥分享-Mac/win

经典音频效果器合集：FabFilter Total Bundle 2019 mac破解版

研发效率低下？试试这些改进方法

程序员敏捷开发研发效能企业管理职场成长

文档图像矫正任务的前沿进展：引入Transformer框架、极坐标的思路

合合技术团队

图像识别系统图像畸变、校准和矫正 #人工智能 #算法文档解析