写点什么

因网络配置错误,Cloudflare 发生 27 分钟中断

  • 2020-09-07
  • 本文字数:932 字

    阅读完需:约 3 分钟

因网络配置错误,Cloudflare发生27分钟中断

Cloudflare是一家从事 Web 性能和可靠性保证的公司,最近,它的网络性能和服务出现了部分中断,持续了 27 分钟。Cloudflare 主干网中的一个错误导致了这次中断,导致整个网络的流量下降了 50%。CloudFlare CTO John Graham-Cumming 在博文中澄清,这次中断不是由任何类型的攻击或破坏引起的。


Graham-Cumming 表示,公司的网络工程团队更新了一个路由器配置,以便减少网络拥塞,解决一个不相关的问题。问题出在主干网从纽瓦克到芝加哥之间的一个分段上。配置上的错误导致所有的通信通过主干网被发送到亚特兰大路由器,给路由器造成巨大的负载。


这导致连接到亚特兰大的 Cloudflare 网络位置不可用。受影响的 20 个地点分别是圣何塞、达拉斯、西雅图、洛杉矶、芝加哥、华盛顿特区、里士满、纽瓦克、亚特兰大、伦敦、阿姆斯特丹、法兰克福、巴黎、斯德哥尔摩、莫斯科、圣彼得堡、圣保罗、库里提巴和阿雷格里港。


Twitter 用户开始报告服务出现故障,League of Legends、Deliveroo、Discord、Feedly、GitLab、Medium、Patreon、Politico 和 Shopify 等网站都受到了影响。


Graham-Cumming 向大家道歉,并对主干网的配置做了一个全面的修改,以防止这种中断再次发生。Cloudflare 首席执行官 Matthew Prince 进一步透露了细节,他在推特上写道:“根本原因是主干网上的路由器配置错误。我们已经采取了防护措施,以确保在未来类似的错误在不会造成问题。”


网络论坛上既有支持的也有表示怀疑的。在 Reddit 上,一位名叫 rotarychainsaw 的用户对容易犯的小错误(比如输入错误)表示同情,“我的意思是……谁以前没有犯过这样的错误呢?”其他几个评论者在同一个帖子对审核过程提出了质疑,hennirl 问道:“我很好奇这个变更是如何通过变更审核的。他们肯定有不同的配置变化,至少有两波人在看吧?……”。


2019 年 7 月 2 日也发生了一次类似的中断,当时 Cloudflare 网站抛出了 502 错误,原因是 CPU 利用率大幅上升。Jerome Fleury 在推特上敦促用户提出(“困难的”)问题,他说宕机让他们学到了“很多教训”。


有兴趣的读者可以在 InfoQ 与 Ryan kitchen 的相关播客以及Learning from Incidents博客中看到更多关于后期剖析、“根源”问题、克服学习障碍等话题。


原文链接


Cloudflare’s 27 Minutes Outage Explained


2020-09-07 17:141752

评论

发布
暂无评论
发现更多内容

iOS SDK 架构解析

神策技术社区

程序员 数据 埋点

架构实战营 模块六作业

孫影

架构实战营 #架构实战营

揭秘环境管理 Noah 的技术实现

Qunar技术沙龙

测试 Dev QA 环境 资源池

MySQL 系列教程之(十二)扩展了解 MySQL 的存储过程,视图,触发器

若尘

MySQL 数据库 8月日更

神策 Android 全埋点插件介绍

神策技术社区

程序员 数据分析 埋点

LeetCode题解:28. 实现 strStr(),暴力法,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

Golang高并发:生产者消费者模型

Regan Yue

Go 语言 8月日更 生产者消费者模型

书单 | 无所不能的Python,从技术到办公,总有一款适合你!

博文视点Broadview

从 FFmpeg 性能加速到端云一体媒体系统优化

阿里云视频云

开源 ffmpeg 视频处理 视频流 视频云

2021 年 8 月国产数据库排行榜:秋日胜春朝

墨天轮

数据库 TiDB oceanbase 国产数据库 达梦

TronChain波场链智能合约开发详情|智能合约DAPP搭建

量化系统19942438797

智能合约 波场链

4轮技术面+1轮HR面,成功拿到腾讯40k*16的Offer ,详解面试流程和真题解析

Java 程序员 架构 面试

支持 10 亿日流量的基础设施:当 Apahce APISIX 遇上腾讯

API7.ai 技术团队

案例 API网关 APISIX Meetup 腾讯游戏

容器监控薅光了头发?这篇你再也不能错过!

观测云

json Docker 云计算 Linux 容器

架構實戰營 - 畢業設計

Frank Yang

架构实战营

原来一条select语句在MySQL是这样执行的《死磕MySQL系列 一》

咔咔

MySQL 数据库

SphereEx CEO 张亮:数据库上云是大势所趋|初心·问

SphereEx

数据库 开源

烂大街的Spring循环依赖该如何回答?

Java spring 程序员 架构 面试

其实TCP聪明得很!详解TCP常见的五个异常处理场景

Java 编程 架构 程序人生 架构师

大数据实战训练营-sparkcore作业

Clarke

新思科技推出Rapid Scan新功能帮助开发团队在编写云原生应用的同时确保安全性

InfoQ_434670063458

新思科技 静态应用安全

“人人皆可成为AI开发者”!百度世界大会官宣百度松果学堂成立

百度大脑

人工智能

拿捏!隔离级别、幻读、Gap Lock、Next-Key Lock

艾小仙

MySQL sql 面试 大前端

FL Studio基本功能介绍

懒得勤快

神策分析 Web JS SDK 功能介绍

神策技术社区

程序员 代码 埋点

Android SDK 之用户路径采集

神策技术社区

数据 路径规划 分析 行为数据

微信小程序图片流&本地图片转base64处理方案

页面仔小杨

微信小程序

小米和网易两位资深工程师联合编写的HBASE原理与实践PDF

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

LeetCode刷题07-简单 整数翻转

ベ布小禅

8月日更

神策分析 iOS SDK 代码埋点解析 | 数据采集

神策技术社区

程序员 数据 代码 埋点

写作——开启技术成长之路

神策技术社区

程序员 写作 日志

因网络配置错误,Cloudflare发生27分钟中断_服务革新_Aditya Kulkarni_InfoQ精选文章