AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的

  • 2025-03-26
    北京
  • 本文字数:1413 字

    阅读完需:约 5 分钟

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的

由于在处理网络钓鱼报告时的人为错误和管理工具中缺乏充分的验证保障措施,Cloudflare 在 2 月 5 日发生了一起影响其 R2 网关(R2 Gateway)服务的故障。在对一个网络钓鱼 URL 进行常规处置时,R2 服务被意外关闭了,从而导致众多其他 Cloudflare 服务中断或受到干扰,并且持续了一个多小时。


根据 Cloudflare 在第二天发布的故障报告,R2 网关服务由于一名 Cloudflare 员工试图封锁托管在 Cloudflare R2 服务上的一个网络钓鱼网站而被关闭。所有涉及 R2 存储桶和对象的操作,包括上传、下载和元数据操作,都受到了影响。Cloudflare 产品资深总监 Matt Silverlock 和 Javier Castro 解释道:


该故障是由于人为错误和在对托管在 R2 上的网络钓鱼网站进行常规滥用处置过程中缺乏充分的验证保障措施而导致的。对该投诉采取的行动导致对该网站进行了高级产品禁用操作,这导致了负责 R2 API 的生产 R2 网关服务被禁用。



来源:Cloudflare 博客


Cloudflare R2 存储是一种与 S3 兼容的对象存储服务,不收取出口费用,自 2022 年以来一直普遍可用,是 Cloudflare 的核心产品之一。尽管该公司强调此次故障并未导致 R2 内的数据丢失或损坏,但许多服务都受到了级联影响。流(Stream)、图(Images)和矢量化(Vectorize)业务经历了停机或显著的高错误率。与此同时,在主事件窗口期间,只有极小部分(0.002%)的 Workers 和 Pages 项目部署失败。Silverlock 和 Castro 补充道:


在 R2 服务级别上,我们的内部 Prometheus 指标显示,由于 R2 的网关服务停止为所有请求提供服务并终止了正在进行的请求,R2 的 SLO 几乎立即降至 0%(…)由于缺乏直接控制来撤销产品禁用操作,以及需要让具有比常规更低级别访问权限的运维团队参与,补救和恢复受到了抑制。然后,R2 网关服务需要重新部署,以便在我们的边缘网络上重建其路由管道。



来源:Cloudflare 博客


故障报告在该故障发生后的几小时内就发布了。在一个热门的 Reddit 帖子中,许多用户对 Cloudflare 的透明度以及其提供报告的详细程度表示赞赏。用户 JakeSteam 写道:


我真的很欣赏这种详细的逐分钟分析,这有助于准确地突出每分钟延迟存在的原因。Cloudflare 的工作做得一如既往的出色,将危机转换为大家的学习机会。


用户 Miasodasto13 补充道:


必须赞扬他们的透明度。此外,我无法想象作为一名工程师经历这样的故障时的肾上腺素飙升。这种感觉一定就像在拆除一个正在滴答作响的定时炸弹。停机时间每过去一分钟,后果就越严重。


Delivery Hero 的资深软件工程师 Amanbolat Balabekov 则 给出 了不同的观点:


人们可能会认为团队会针对这种情况构建专门的内部工具,但具有讽刺意味的是,Cloudflare 的工具恰好在最需要它的时候失效了。看起来就是,要恢复服务,他们需要使用他们自身的服务,这就产生了这种疯狂的循环依赖关系。


Cloudflare 已经制定了几项补救措施和后续步骤,以解决验证漏洞,并防止将来发生类似的故障。这些措施包括限制对产品禁用操作的访问,并要求临时产品禁用动作需要两方批准。此外,该团队正在扩展滥用检查,以防止意外阻止内部主机名,从而减少系统和人为驱动操作的影响范围。


作者介绍

Renato Losio 作为云架构师、技术主管和云服务专家拥有丰富的经验。目前,他住在柏林,远程担任首席云架构师。他的主要兴趣领域包括云服务和关系数据库。他是 InfoQ 的编辑,也是公认的 AWS 数据英雄。你可以在领英上与他联系。


原文链接:

https://www.infoq.com/news/2025/03/cloudflare-incident-r2/

2025-03-26 08:004678

评论

发布
暂无评论

ARTS 0825 打卡

冰封的鸢尾花

ARTS 打卡计划

ARTS 打卡第 2周

Geek_wu

ARTS 打卡计划

ARTS第二周

壹贰叁

工赋开发者社区 | 以智能制造为主攻方向,扎实推进新型工业化

工赋开发者社区

ARTS 打卡第 2 周

Johnson

AI arts

2023 ARTS 02

MiracleWong

ARTS 打卡计划

ARTS 打卡 第一周,ARTS我来啦!

闫同学

ARTS 打卡计划

Zebec在Nautilus Chain 开启质押,ZBC 将极致通缩

鳄鱼视界

ARTS 打卡02

AI帅辉

ARTS 打卡计划

Presto 设计与实现(九):SQL 词法分析

冰心的小屋

数据湖 词法分析器 presto 设计与实现

探索 React 初体验:从零开始构建你的第一个应用

麦田的守望者

R语言之缺失值处理

timerring

R语言

ARTS打卡第二周

请务必优秀

ARTS 打卡第 2 周

atom

不只致富,更要守富

少油少糖八分饱

财富自由 搞钱 致富 守富

Presto 设计与实现(十):SQL 语法分析

冰心的小屋

数据湖 语法分析器 presto 设计与实现

ARTS打卡第二周

穿过生命散发芬芳

ARTS 打卡计划

ARTS打卡第二周

犇犇

ARTS 打卡计划

工赋开发者社区 | 工业智能化背景下制造业大数据的应用

工赋开发者社区

如何学习

石小天

学习 学习方法 如何学习 技术学习

探索以太坊:智能合约、代币发行与去中心化应用

麦田的守望者

ARTS 打卡第 18 天

自由

ARTS 打卡计划

纯前端,不要后端,开发一个项目

图颜有信

前端

Kafka为什么这么快?

越长大越悲伤

Java kafka

关于RocketMQ的高可用

M

原创 RocketMQ 高可用

C++友元函数和友元类

芯动大师

文心一言 VS 讯飞星火 VS chatgpt (82)-- 算法导论8.1 1题

福大大架构师每日一题

福大大架构师每日一题

音量控制:Sound Control for Mac激活最新资源

胖墩儿不胖y

Mac软件推荐 音量控制软件 音量控制

基于亚马逊云科技无服务器服务快速搭建电商平台——性能篇

亚马逊云科技 (Amazon Web Services)

云原生

手动处理网络钓鱼 URL 是如何导致 Cloudflare R2 宕机的_安全_Renato Losio_InfoQ精选文章