写点什么

亡羊补牢:携程故障的非技术性思考

  • 2015-06-01
  • 本文字数:1804 字

    阅读完需:约 6 分钟

最近这几天,有关支付宝和携程的故障问题炒的很热,什么“光线挖断”、“物理删除”、“员工报复”等各种段子甚嚣尘上。拿携程来说,按照之前财报所说,每小时宕机的损失高达百万美元,从中午到半夜,故障时间大约 7-8 个小时,损失挺大的。

关于故障的根源,我也从一些渠道得到了权威的答案,应该是员工犯了比较低级的错误,不是有意为之的,但是导致的结果很严重。有关这次故障的技术性讨论已经有很多了,我想从其他角度来说下看法。

  • 技术不是万能的。最近十年,随着 IT 技术特别是互联网的发展,咱们的生活发生了很大的改变。我们对技术的依赖也越来越大,什么“技术驱动业务”、“技术改变世界”,这些说法都没啥大问题,但是如果把技术看成决定业务的一切,那就太偏颇了。以运维领域为例,虽然这几年有关运维的工具、理念、技术不断发展,但是依然存在各种陷阱和填不完的坑。这些坑一方面是因为技术的时代局限性,另一方面,是因为技术并不能从根本上取代运维工程师。运维是一个极其庞杂的领域,技术越发展,其含义越加丰富,技术可以帮助运维工程师减少犯错的几率和重复性劳动,但是无法告诉我们如何做好运维,只有人才能做出判断和优化。
  • 管理和流程比人和技术更重要。除了技术,人更靠不住,经常犯这样那样的错误,特别是在执行一些日常性的、非决策判断性的工作时。这时候,公司的内部管理机制和流程就显得非常重要,小到一个系统补丁升级的操作流程,大到产品重构的管理,都需要明确的步骤和责任人。在互联网快速发展的中国,人的因素往往在公司中占据了主导地位。这次我去深圳和广州考察,正好有两家公司,形成了比较鲜明的对比,一家公司采用了国际标准的项目管理流程,做任何事情都有一个流程模板,把关键要素填上去,就可以形成一个标准流程,而且不依赖于某个人;另外一家公司的负责人则告诉我,他们现在非常害怕某个关键岗位的工程师离职,因为这意味着某项工作可能就会搁浅。这两种方式各有利弊,我们很难做出 01 选择,但是从运维的角度来说,我更倾向于采用完善标准的流程,避免人为的失误。另外卖个关子,近期 InfoQ 会牵头做一件运维领域的大事件,对整个运维领域都有好处,6 月份就会有结果。
  • 运维非常复杂,出错的地方却往往是在最简单的地方。这可能是技术人包括我自己的一个共性,在研究一件事情时,一开始就深入细节,往最复杂最有挑战的地方研究,对于显而易见的问题和流程,一方面觉得没啥意思,体现不出自己的能力来,另一方面觉得太简单,一般不会出问题。按照 28 原则,80% 的工作和流程都是相对简单的,如果这些任务没有仔细研究和做好,那么犯错的概率自然就大了。
  • 避免事后诸葛亮。我看到携程故障之后,好多评论都在讲携程甚至是中国互联网企业发展太快,一直在裸奔,现在有报应了吧等等。我觉得说的有一点道理,但是不要忘了,“快速发展”是所有互联网企业的共性,它们必须这样做,只能边做边优化。从事后分析,我们可以说携程做的这不好那不好,但是我想提醒大家,携程的几千名 IT 工程师也不乏精英,这次的故障不会是简单的流程或者管理问题,而是有着深刻的历史背景和发展原因,我们没有机会深入了解,但是可以理解。如果携程按照网友们的建议事无巨细的研发和运维模式,也许在竞争激烈的中国,早没有携程这个名字了。

读者反馈

上篇文章《像外行一样思考,像专家一样实践》发布以后,有不少读者留言反馈,我挑选了两条很赞的文字,整理如下:

  • 张卫滨:也是我最近在想的问题。小时候特别喜欢听单田芳的评书,老先生经常说一句话:凡事绕不过一个理字。也就是凡事都要讲道理讲常理,所以学习一个比较难的东西,真正理解后会有一种恍然大悟的感觉,觉得一切都在情理之中。学习做事都是一个渐进积累的过程,过程中积累的经验和知识,对于后续的学习做事可以作为基础,有了积累之后再学其他东西都会快很多,但有时候却又会走入经验主义的误区,做得东西说的话都不那么符合常理了,所以要经常跳出来看看自己,看看自己做的事情。
  • 梁杰:其实对应的就是我们熟悉的看山看水问题。入门阶段是看山是山,继续深入就是看山不是山,再往后就是看山还是山,也就是“像外行一样思考”。虽然还是山,却是解构了的、每个细节都被研究过的山。怎么做到这一点?多看书多交流,从多个角度去看山,培养一种全局的视野。

作者的微信公众号“技术风向标”,关注 IT 趋势,承载前沿、深入、有温度的内容。感兴趣的读者可以搜索 ID:jishuqushi,或者扫描下方二维码加关注。

2015-06-01 01:113537
用户头像

发布了 501 篇内容, 共 254.8 次阅读, 收获喜欢 59 次。

关注

评论

发布
暂无评论
发现更多内容

GPU应用:从计算机图形学到人工智能

青椒云云电脑

人工智能 gpu AI绘画

GPT 被曝重大缺陷;腾讯侦破国内首个 AI 游戏外挂;特斯拉人形机器人再进化丨 RTE 开发者日报 Vol.56

声网

macos平台数据保护推荐 Data Guardian 免激活最新

mac大玩家j

数据保护 Mac软件 数据保护软件 保护数据

NFTScan | 09.18~09.24 NFT 市场热点汇总

NFT Research

NFT\

一文带你实现云上部署轻量化定制表单Docker

华为云开发者联盟

开源 云原生 华为云 华为云开发者联盟 企业号9月PK榜

一文读懂GPU参数选择

青椒云云电脑

云桌面 GPU算力

国产化运维安全审计系统哪家好?支持信创吗?有哪些功能?

行云管家

国产化 安全运维 运维审计 国产化平台

LED透明屏为什么能透明?

Dylan

AR vr 虚拟 LED显示屏 led显示屏厂家

噢耶!字节后端Offer,拿到了!

王中阳Go

Go 面试题 面经 校招 大厂面经

为什么GPU引领加速计算时代

青椒云云电脑

GPU算力

支持国产基础硬件的云管平台哪家好?为什么?有哪些功能?

行云管家

云计算 云安全 云管平台 行云 云成本

图形处理工具:Photoshop Elements mac中文直装版下载

mac

windows 苹果mac Photoshop Elements 图形处理工具

F5为OpenTelemetry项目提供降本增效的技术支持

科技热闻

华为云HBase冷热分离最佳实践

华为云开发者联盟

大数据 后端 华为云 华为云开发者联盟 企业号9月PK榜

文心一言 VS 讯飞星火 VS chatgpt (100)-- 算法导论9.3 6题

福大大架构师每日一题

福大大架构师每日一题

开源项目专访 | XuperCore——让信任的链接更加便捷

开放原子开源基金会

艺术与区块链的融合—NFT开发的创意之旅

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 NFT开发

QCN9074, QCN9274, QCN6274 - Wi-Fi 6E bands: 2.4 GHz, 5 GHz and 6 GHz

wifi6-yiyi

QCN9074 Wi-Fi 6E

【PPT下载】杭州 Atlassian 社区四周年活动

跟YY哥学Jira

Jira ACE #研发效能 Atlassiam Jira Service Management

【有奖体验】轻点鼠标,让古籍数字化“重生"

Serverless Devs

Serverless 云原生 托管 AIGC

高级编程计算工具MATLAB R2023a激活中文版附密钥

胖墩儿不胖y

Mac软件 数学计算工具

低代码引擎 TinyEngine 正式发布!

Kagol

开源 前端 低代码

亡羊补牢:携程故障的非技术性思考_DevOps & 平台工程_崔康_InfoQ精选文章