专访骨灰级老炮井源：运维行业可能不存在了

作者的话：我们观察到：国内运维行业，不同的公司做法差异巨大，从业人员水平参差不齐，缺少普遍性行业认知，难以形成合力（这也会让 To B 的产品异常难做，不利于行业整体发展），甚至在部分公司，运维人员处在技术鄙视链最底层，我们希望为行业带来一些新的思路和发展推动力。
这需要很多行业老炮一起，输出观点，共同碰撞，才有可能形成一些先进的共识，形成行业前进的思想旗帜。所以，我们准备策划《运维百家讲坛》这么一档栏目，诚邀 100 个运维总监（或更高）级别的老炮，通过采访或约稿的方式输出他们的观点，给行业一些借鉴。
井老板是我 11 年入行加入百度时的团队大老板，骨灰级老炮，逮着这个机会不容易，把业内常见问题都问了个遍，以飨读者。井老板生性洒脱，嬉笑怒骂皆成文章，道理自在其中。这里是接地气、有高度的《运维百家讲坛》第 1 期，开讲！

嘉宾简介：

井源，左一，前百度运维架构师，前小米运维负责人，前美菜 CIO。

有些运维人员反映公司对运维的价值所知甚少，您当年是怎么给公司讲清楚运维的价值的呢？

首先需要和公司讲清楚运维的岗位职责（运维是干什么、产出什么）和关键指标（度量产出成果），比如工作围绕稳定、安全、高效等方向展开，开展了哪些运维项目，如何主动推进关键指标的达成。

关键指标，不仅仅包含服务可用性，还有比如服务器资源达标率、服务故障数据（故障分类、故障响应时间、平均故障恢复时间、故障告警覆盖率）、服务安全指标、服务资源到位时长等等。

比如搭建一套完善的监控系统：

监控服务器资源使用率，找出使用率不达标的服务器进行回收或资源重新分配，通过虚拟化、容器化等手段提升资源使用率；
梳理告警阈值，规范 P0、P1、P2、P3 告警级别；监控系统提供告警合并、智能定位建议，提供活跃告警聚合，提供时间纬度的告警分析。方便更快的告警响应和故障定位，提升故障响应时间、故障恢复时间等；
服务的告警和预案梳理，缩短平均故障恢复时间，提升故障告警覆盖率。

业内有观点认为云和 Kubernetes 这样的基础设施的崛起会让运维岗位逐渐消亡，您是怎么看待这样的观点呢？

很多年前我们运维团队的口号是 NO Ops，博客是 noops.me。

很早就说过，运维岗位会逐渐消亡，或者部分工作职责会消亡。拿系统运维来举例，以前管理的团队需要服务器工程师、内核工程师、网络工程师、CDN 工程师、机房运维工程师等小 20 人的团队。后来通过引入公有云，团队只有 4 个人，云资源管理员 1 人、CDN 调度工程师 1 人、网络工程师 1 人、内核工程师 1 人，他们只需要管理和调度好第三方公司提供的资源和服务即可。

随着 K8s 和云的普及，以及研发代码工程化的不断成熟，运维在这个过程中的参与度会越来越少。在部署框架成熟的情况下，为了节省运维人力，提升部署效率，二、三级服务的部署已经交给研发自助完成。

随着科技的发展，时代的变化，一个岗位的消亡是很正常的事情，及时做好调整和规划才是思考的重心。

在企业大范围上云的当下大环境里，您觉得运维人员应该做出哪些调整才能更适合当下的人才需求？

在上云的大环境下，运维工程师更应该面向业务、面向架构，拓展自己的业务范围，成为保障业务稳定的关键人才。如果还是和以前一样，仅仅只关注监控报警，只负责服务部署变更，那么势必会被淘汰。

另一方面，可以往专精的方向走，成为某个领域的专家（监控、大数据、K8s、数据库等等），走运维研发专家的方向。

人生的建议，多寻找一些副业，运维工作只是生活的一小部分。

AIOps 热炒了几年，但是最近明显声量变小了，您觉得企业现阶段应该落地 AIOps 么？应该注意哪些问题？

就拿智能监控为例，看到了很多文案说要通过 AI 预测故障、智能定位。到现在没有看到任何靠谱的案例。在一个服务变更快、依赖关系复杂、故障影响因素多的互联网业务系统中，如果真能通过历史数据，实现故障预测。那还不如去做地震预测，有几千年的地震数据积累，能够产生很大的社会价值。

做 AIOps 的前提，是真的懂 AI，清楚机器学习和神经网络的原理。有多少人工才有多少智能，AIOps 才能不是一个口号。

ChatGPT 这样的 AI 能力您觉得未来是否有可能解决运维行业的问题？

比如在故障管理中，根据故障的设备、数据、描述，通过知识库、历史故障库等等，给出故障可能的辅助建议(suggestbot)

BTW，如果你已经可以玩转 chatGPT 了，把这个技术投入到其他更能产生价值的领域吧，别老在运维这个领域耗着……

业务程序的部署，到底应该交给研发来做还是应该交给运维来做，在很多公司争论不休，您是怎么看待这个问题呢？

之前提到过，我们二、三级的服务是完全由研发去做，一级服务是运维和研发轮流去做，主要目的主要是让运维清楚当前服务的变化情况而已。运维人员在公司一开始做部署，更多是规范线上环境，规范服务部署方式，从而更好的研发部署系统，掌控所负责的服务架构。

安全问题、流程问题，完全可以通过部署系统去解决。运维就不要守着这个没任何价值，没任何沉淀的工作不放了。

您最想对（运维）行业说的一句话是？为什么？

“物理学没有不存在，只是我们认为的物理学，可能不存在。” 运维行业可能也不存在了，多少运维人的梦想是 AIOps、NOOps，要么自己去干掉这个行业，要么在这个行业被干掉。

工具选型这块，到底是自研，还是使用开源，还是使用商业产品，是如何抉择的？

有能力有时间就使用开源，能力一般时间有限就使用商业产品。有钱有闲还很自负的话，可以尝试下自研。

您所在的公司是否也是多云架构？您觉得多云场景下哪些能力应该依托云厂商哪些能力应该自建？

我们是多云架构。专线或者数据传输的能力，这个需要自建。基于多云之上的公共能力也可以自建，比如监控系统、数据备份系统、部署系统、微服务核心组件等，其他的交给云厂商就好了。

您印象最深的一次故障是什么？对您有何启示？

运维这么多年，遇到的诡异故障太多了，root cause 让你根本想象不到。只能说，故障很难避免，只能设法减少故障的频率、影响面和影响时间。

所以你的绩效不是故障次数和故障级别，而是故障影响面、故障响应、恢复时间等。

面对当下快速发展的基础技术，您对给刚入行和入行已久的运维人员，分别有什么职业规划的建议吗？

比较偏激哈~刚入行的，建议尽快转行！入行已久的，转行技术相对困难，已经打上了深深的运维烙印。我见过太多运维人员转行其他技术，多数都是运维研发、运维产品经理的岗位，还是找一下副业吧。

您觉得传统运维和 SRE 的区别是什么？您的团队做出这样的转型，其背后的思考是？

这都 2023 年了，聊这个话题就跟互联网运维弄个 NOC 监控值班一样，开倒车。

如果现在还在考虑要不要转型 SRE、怎么转型 SRE、SRE 的变化这些问题，就跟 5g 时代，还在考虑用 2g，还是 3g……都会被时代所淘汰。

作者简介：

秦晓辉，Open-Falcon、Nightingale 创始研发，极客时间《运维监控系统实战笔记》作者，公众号 SRETalk 主理人，快猫星云创业合伙人，创业方向是稳定性保障方向。如果你有兴趣来论坛输出一些自己的宝贵经验和见解，欢迎联系我，联系方式如下：18612185520（微信同号）。

创作场景