11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦,立即报名! 了解详情
写点什么

携程网瘫痪超 8 小时,可能故障原因分析

  • 2015-05-28
  • 本文字数:1326 字

    阅读完需:约 4 分钟

5 月 28 日上午 11 时许,携程网突然陷入瘫痪,官方表示是由于携程部分服务器遭到不明攻击,而导致官方网站及 APP 无法正常使用。对于事故原因,社交网站和微信群中都有不同的猜测,主要包括数据库被物理删除、业务代码被删除或者安全漏洞。

物理删除是指文件存储所用到的磁存储区域被真正的擦除或清零,这样删除的文件是不可以恢复的。如果携程的数据库被物理删除,那损失不可估量。不过,携程网已经明确表示数据库被物理删除纯属谣言,所有的订单数据都保存完整。从技术角度来看,物理删除的速度非常慢,携程那么多的数据在短时间内被删除的可能性不大。所以这一猜测基本可以被否认。

另外一个猜测是业务代码被删除。一份疑似携程的内部邮件表示:『Croller 中保留了上次编译后的版本,fat 到 prd 环境所有 Windows 环境编译后的源代码被删除』,如果这份邮件属实,那基本可以确认此次事故是由于业务代码被删除引起的。业内某专业人士也赞同此观点 ,他认为携程数据库至少隔天多次备份,被删除的可能性不大。而由于代码每天都会上线并且有代码库,所以可能没有做备份。但如果只是线上代码被删除,那不太可能瘫痪这么长时间。

那为什么这次的故障持续时间能这么长?InfoQ 高效运维群的智锦发表了自己的看法:

携程目前指向一个静态页面,所有动态网页都访问不了。有人问为什么从备份恢复这么慢?现在 SOA 架构的网站,都是由成百上千个应用子系统组成。平时真正经常发布的,可能就是不到 20% 的核心子系统。而且发布时都是做加法,很少完全重新部署一个应用,一旦遇到需要所有系统都需要重新部署的极端情况, 管理协调的问题,应用之间的依赖关系、还有很多平时欠下的技术债都集中爆发了,更不用说很多不常用的子系统,上线之后就没人动过,一时半会都找不到能处理的人。而且,在这样的高压之下,各种噪音和干扰很多,运维工程师的反应也没有平时灵敏。

如果是代码被删除,那也就是说某个员工可能拥有携程大部分服务器的登录和操作权限。所以有人认为携程在安全审核和权限控制方面的流程存在问题。但也有人认为再完善的流程也有可能被钻漏洞,人品比技术更重要。

如果把这次的故障比作一次地震,那这次灾难可能就是携程的『汶川地震』了。减少地震伤亡的一种有效做法是应急演练,同样,软件公司也需要灾难演练,以防不备之灾。中国移动的王晓征说道:

浙江移动每年的大小演练有近 300 次,去年核心 CRM 系统在白天中午 11 点左右做整体切换,不到 5 分钟就全部完成了。浙江移动内部有一个故障参考手册,运维人员可以根据手册判断故障可能会影响到的业务,并根据影响到的业务确定相应的处理方案,最后会根据处理时间评定故障等级,并汇报给相应的负责人。针对大的故障,核心思路应该是先恢复,再修复。

新浪微博的 TimYang 也从团队角度发表了自己的看法,他认为,出现故障后,虽然公司会有财务及形象上的损失,但是领导者这时候更多需要创造好的环境给工程师来解决问题,切记不要急于施加时间压力或者问责,不然最有能力去解决问题的一线工程师可能会因为压力过大而降低效率。

截止发稿前,携程网已瘫痪超过 8 个小时,服务仍未全部恢复。此外,艺龙网也称遭到 DDos 攻击,接下来 InfoQ 将会重点跟进相关的故障事件,敬请关注后续报道。

感谢徐川对本文的审校。

2015-05-28 07:037795
用户头像
郭蕾 关注我视频号:极客时间小盖

发布了 219 篇内容, 共 126.5 次阅读, 收获喜欢 182 次。

关注

评论

发布
暂无评论
发现更多内容

【JVM】HotspotJVM精通垃圾回收器原理

小明Java问道之路

8月月更

【JVM】HotspotJVM 分代回收机制

小明Java问道之路

8月月更

一起学习设计模式:责任链模式

宇宙之一粟

设计模式 8月月更

艺术收藏NFT系统开发:NFT功能搭建

开源直播系统源码

数字藏品 数字藏品系统软件开发 数字藏品开发

私有化部署的企业IM:实现工作消息、文件的全面可控

WorkPlus Lite

构建万物可信的基石:解密区块链跨链技术

创意时空

[教你做小游戏] 展示斗地主扑克牌,支持按出牌规则排序!支持按大小排序!

HullQin

CSS JavaScript html 前端 9月月更

技术解析+代码实战,带你入门华为云政务区块链平台

创意时空

金融科技创新者的困境

木风

金融科技 数字化转型 科技创新

基于Vue3常用代码块

青柚1943

typescript Vue3 Element Plus Pinia sortablejs

移动办公平台如何在企业中发挥数字化优势?

WorkPlus Lite

如何在保护用户隐私的同时实现精准广告投放?

HMS Core

广告sdk

从Core Dump中提取CUDA的报错信息

OneFlow

深度学习 报错 cuda

低代码是什么?国内排名前 5 的低代码开发平台对比

蒋川

低代码 开发工具 开发平台

区块链交易隐私如何保证?华为零知识证明技术实战解析

创意时空

每日一R「21」Unsafe Rust

Samson

学习笔记 8月月更 ​Rust

IDEA配置tomcat

楠羽

#开源

微服务网关Gateway实践总结

知了一笑

Java 架构

Java线程中的wait、notify和notifyAll解析

共饮一杯无

Java 多线程 9月月更

这些智能合约漏洞,可能会影响你的账户安全!

创意时空

自然语言处理--神经网络的复习

IT蜗壳-Tango

自然语言处理 nlp 9月月更

web前端培训程序员学习什么呢

小谷哥

iofod导入任意前端资产,以 Element UI 为例

iofod jude

小程序 前端 低代码 网页

【算法实践】一天路走到黑--手把手带你实现坚持不懈的线性查找

迷彩

Python 数据结构 算法实践 8月月更 线性查找

Java进阶(一)内存解析

No Silver Bullet

Java 9月月更 内存解析

【编程实践】认识爬虫并手把手带手实现新闻网站的爬取

迷彩

记录 Python爬虫 8月月更 网络爬虫

C/CPP基础练习题多维数组,矩阵转置,杨辉三角详解

CtrlX

c c++ 基础 8月月更

玩转KubeEdge保姆级攻略

乌龟哥哥

8月月更

架构师的十八般武艺:合规架构

agnostic

企业架构 合规

阿里云高性能计算负责人何万青:阿里云大计算加速HPC与AI融合

阿里云弹性计算

AI HPC 高性能计算 无影云电脑 计算巢

多线程基本概念(并发与并行、线程与进程)和入门案例

共饮一杯无

Java 9月月更 线程与进程 并发与并行

携程网瘫痪超8小时,可能故障原因分析_Java_郭蕾_InfoQ精选文章