写点什么

IT:从运维到运营

  • 2020-03-16
  • 本文字数:7002 字

    阅读完需:约 23 分钟

IT:从运维到运营

企业 IT 正站在这样一个拐点上,要么从运维走向运营,要么从运维走向被代维。


大多数 ITOM 领域的从业者,一直以来都约定俗成地把 ITOM(IT Operation Management)翻译成 IT 运维管理,相应的也把 IT Operations 叫做 IT 运维。近两年来,开始有越来越多的人使用“IT 运营管理”和“IT 运营”这样的说法,对应的英文是一样的,但这里“运维”和“运营”是同样的意思吗?两者之间有什么异同?


关于这个问题,仁者见仁智者见智。有人认为其实运维就是运营,用个新名词只是哗众取宠的噱头而已;有人认为运维是面向 IT 设施的,运营是面向业务服务的;有人认为运维是关注 IT 指标,运营是关注业务指标的;甚至有人说,运维是“眼前的苟且”,运营是“诗和远方”。


总体来看,大多数人认为两者含义并不完全一样,很多人都认为 IT 运营比 IT 运维的层次更高,有些成熟度较高的大型 IT 组织已经提出并在执行“从 IT 运维到 IT 运营”的发展规划。但即使在提出这类理念和计划的组织内部,对于究竟什么是 IT 运维管理,什么是 IT 运营管理,也还没有非常清晰的分析和定义,更多的是将传统 IT 运维管理领域之外的一些新内容笼统的归到 IT 运营管理的部分里去。我在和某个正在执行此规划的 IT 组织中的某位高管交流时,他就提到:“From Operations to Operations?连定义都没搞清楚,怎么能成为指导方向和发展目标?”


他的问题让我这个 ITOM 的老兵也开始思考“IT 运营”这个新“翻译”的真正含义,以及近几年来它日益流行的真实原因,在和许多同业交流之后,笔者在此分享一下我关于这个问题的一些想法和心得,作引玉之砖,希望能带来更多同业的讨论和指教。


首先,IT 运维和 IT 运营,英文都是 IT Operations,在老外来看,并无区别,是指关于 IT 运行的所有事情。而中文之所以有两种不同的翻译,是因为 IT Operations 包括的内容很多,IT 运维和 IT 运营两种中文译法分别侧重其中某一部分的内容,假如归纳成一句话的话,可以说 IT 运维管理关注的是“活着”,而 IT 运营管理则有更高层次的需求,不仅要“活着”,还要“活得好”。


先看个实例,某大型数据中心 IT 服务能力的愿景是“以业务为中心,交付稳定、安全、高效的 IT 运营服务,构建业界领先的 IT 运营能力,支撑企业的持续发展和战略成功。”这个愿景中,“稳定、安全”就是解决活着的问题,属于传统 IT 运维管理的范畴,“以业务为中心”、“高效”、“业界领先”则属于如何“活得好”的范畴,更多的是 IT 运营管理的范畴。


能力建设是有循序渐进的过程的,任何一个组织,首先都要解决“活着”的问题,然后才有可能追求“活得好”,因此,过去三十年,在大多数 IT 组织面临 IT 设施规模快速扩张,IT 应用数量不断增多,IT 运行压力越来越大的挑战时,首先要确保 IT 系统“活着”,也就是能够持续“运行”,稳定“运转”,通过日常“维护”工作让系统少出故障,出了故障能快速“维修”,“维持”系统的正常“运转”。这个阶段把 IT Operations 翻译成 IT 运维,把 ITOM 翻译成 IT 运维管理,无可厚非。


IT 运维管理阶段的关键词是“稳定”、“安全”、“可靠”,关注可用性指标(MTTR、MTTF、MTBF 等)、可靠性指标(RTO、RPO)和安全合规。相应地,在技术、工具和流程上,都以稳定、安全、可靠作为最优先考虑的要素:


  • 技术上,倾向选择稳定成熟的技术架构和产品,愿意为提升可靠性支付大量溢价,上得起小型机的就上小型机,买得起大机那就大机,能备份的地方就备份,尽量采用全冗余架构;

  • 流程上,首先从事件管理和变更管理做起,主要目标是能确保故障事件得到追踪和及时解决,以及管控变更避免人为故障多发,关注重点还是在提升可用性;

  • 工具上,采用“监-管-控”架构,其中监控更关注设备级监控,重点发现故障节点,“管”就是配合实现变更和事件流程,至于“控”,此时上配置自动化工具,更关心的是实现配置的标准化和合规检查,重点还是在增强可靠性减少故障,而非减少运维人员工作量。


在以“活着”为主要目标,以“稳”为主要形态的 IT 运维和 IT 运维管理发展多年后,越来越多的 IT 组织开始走出这个解决基本生存需求的阶段,从“被动维持”走向“主动经营”,追求如何“活得好”,近十年来,APM、BSM、云计算、运维大数据等新的理念、技术和工具的出现、发展和变迁,都和 IT 正逐步开始从运维走向运营有密切关系,时至今日,从全局角度来看,可以说企业 IT 已经站在了从运维到运营的一个重要拐点上。


IT 运营是建立在良好的 IT 运维的基础上的,没有“活着”,“活得好”就无从谈起。但怎样才叫活得好呢?换言之,IT 运营追求的目标究竟是什么?比 IT 运维多了哪些东西呢?


与 IT 运维更多地是面向基础设施不同,IT 运营更多的是面向业务、面向服务,本质上是面向人。我们说某个人活得好不好,如何判断呢?大多数人认同的马斯洛需求层次理论说,在解决了基本的生存问题和安全感之后,一个人要感觉自己活得好,是需要有社会认同和自我实现的。对于 CIO 来说,他所管理的 IT 组织假如能让三类人满意,我们就可以说这个 IT 组织已经从基本的 IT 运维阶段走到 IT 运营阶段,已经处在活得好的状态了。


哪三类人呢?


用户、老板和 IT 人。假如 IT 组织是一个独立公司的话,这三类人基本对应着客户、股东和员工,CIO 如果是公司老板,就会知道其实这三类人是哪个都得罪不起的:客户不满意会流失,企业就没有生存之本;股东不满意会换人,说明企业没有竞争力;员工不满意会换地儿,企业就缺乏持久发展的能力。尽管行业特点和企业文化不同会带来优先级和侧重点的不同,但本质上,一个有长远发展前景的卓越公司,往往是做到了让客户、股东和员工都满意的公司。


IT 运维阶段,IT 组织更多地还是在解决三类人的基本需求,让用户能用,让老板批钱,让员工干活,当然也希望大家更满意,但受限于阶段性能力和各方面因素,先能保证这些基本需求就已经很不容易了,而做到这些,在相当长时间内也已经足够,主要因为几个原因:


  • 各企业信息化之初,能够利用 IT 实现对业务和管理流程的优化、固化和自动化,就已经达到目标;

  • 初期系统以内部员工为主要用户,且没有同类系统做对比,用户对系统效率和体验的容忍度高;

  • IT 部门在企业内部的 IT 能力供给上基本是垄断的,用户没有其它选择。


因此,过去虽然 IT 部门提供的即使只是满足基本需求的服务,大多数情况下也并没有多大问题。但短短十年间,互联网和移动互联网大潮席卷世界的每个角落,每天用着微信滴滴淘宝携程的用户们的胃口已经越来越高了,过去能够忍受的一些小问题也已经变得忍无可忍了:


人家网站那么快,咱们的系统怎么都是老和尚,点一下鼠标要等一炷香才动一下?


  • 人家网站第一次用没人教我就全部自己搞定,咱们系统怎么培训几回我都搞不清怎么用?

  • 人家网站一看就是赏心悦目高大上,咱们系统怎么就总是 Low 逼的不行?

  • 人家网站免费邮箱都无限容量,咱们怎么花那么多钱还每人限收发 10M 内邮件?


不知从哪天起,过去和企业 IT 八竿子打不着的“人家”一下子蹦出来,成了 IT 部门的变相竞争对手了,没抢走用户,但把用户满意度抢走了。更要命的是,随着云计算各种 aaS 的风起云涌,这些“人家”未来没准儿真的要来抢走用户了。假如 IT 部门不能与时俱进,还是停留在满足基本需求的运维上,而不主动向追求卓越的运营迈进,提供更有竞争力的优质 IT 服务,那就很可能会在几年后会碰到更大的挑战。


而在 IT 运营阶段,与 IT 运维阶段的关键词“稳定”、“安全”、“可靠”不同,关注的关键词变成了“体验”、“效率”、“效益”。回顾前面我们提到某大型数据中心的愿景中“以业务为中心”、“高效”两个运营关键词,其实“以业务为中心”就对应着“以用户为中心”,业务就是以用户为中心的吗,而用户关心的就是体验(稳定可靠也是体验的一部分)。“高效”则包含着高效率和高效益两个含义,一个关注敏捷性,交付速度、响应速度,一个关注成本收益,关注服务获取效率。


(假如说 IT 运维以“稳”为主,那么 IT 运营则以”敏“为主,在技术架构选择和 IT 管理流程和系统的建设上面,IT 运营阶段都和传统 IT 运维阶段的关注重点有所转变,从而带来了新旧架构、新旧工具、新旧方法并存甚至交汇的复杂情况,Gartner 在提的 Bimodal,联想所说的双态 IT,也都在反映这种状态。)


让我们围绕三类人的需求简单看看 IT 运营比之 IT 运维阶段要面临的新挑战,以及应对挑战在出现的一些新的理念、工具和技术:


让用户满意


用户大致有两类,个人用户和业务部门:


个人用户,不论是内部用户还是外部用户,更关心的是体验,体验主要是易用性、容错性和响应速度;要提升体验,对于 IT 运营管理领域就带来了新的要求,要在传统的设备和组件监控的基础上,增加端到端的用户体验感知能力、应用性能的深入探测和分析能力、应用及系统性能瓶颈的发现和优化能力。


越来越多 IT 组织开始关注用户体验,从而纷纷部署包括外部模拟仿真探测、流量数据分析、日志数据分析、嵌码采集探测等各种针对应用性能管理的手段工具 ,造就了近年来 APM 市场热度飙升。


这些采用不同手段的 APM 工具虽然有功能重叠的部分,但各有其侧重点,多种工具的部署能带来数据和功能的丰富性和多样性,对于准确测量和提升客户体验是有必要的,事实上在那些特别重视用户体验的 IT 组织里,已经或者正在进行全方位的工具部署,并在尝试在各种专业分析工具之间架设运营大数据工具,集成多样化数据,提供数据的统一可视化和整合分析等能力,提升故障和优化点的定位分析能力,深度改善用户体验。


业务部门,除了关心最终用户的体验,更关心交付效率,与之相应的,IT 部门开始在各个环节上采用新架构、新技术和新工具,从各个环节上提升效率,加快业务服务的交付速度。


  • 提高采购流程和硬件上架的效率:IaaS 云和资源池模式改变了传统的按需采购模式,通过资源整合,将资源规划和资源准备的工作批量前移,极致地提高了预算、采购和硬件上架的效率;

  • 提高系统部署和应用发布更新的效率:采用各种云管理工具、云管理平台及 DevOps 工具,通过自动化部署、配置管理等功能组件的组合,或从横向的系统层次上,或从纵向的应用发布运行链条上,或者协同配合,不同程度地提高了应用组件甚至是整个业务系统的交付和发布效率,实现对业务部门交付需求的及时甚至实时响应,达到“敏捷”的程度。


让老板满意


让用户满意是让老板满意的基础,假如业务部门天天在老板那儿告状,老板怎么都满意不了。但是即便业务部门都说你好话了,老板就会满意了吗?要是你真的这么认为,说明你太不了解老板这种动物了。


老板要的不只是结果,也一定会追求高效率和高效益,同样的成果,能否用更低的成本达成?我们现在的成本收益水平,对应业界同行,是人傻钱多还是精明高效?说要追求“业界领先”,怎么就是领先了?不能说技术更新应用更多就是领先吧?总要有个从效益角度的衡量方法吧?假如 IT 部门是一个独立运营的实体,作为给钱的股东,也是要问这些问题的。


效益本质上是投资回报率,成本越低,效益越好,做的事情越有用,效益越高。要追求高效益,首先面临的难题是要有一套成本收益的衡量体系,没有量化方法,既搞不清楚 IT 部门当前在同业中所处的水平,更无法通过指标考核的方式推动 IT 部门不断提高效益水平。在没有这套衡量体系的时候,往往只能采用一些非常粗线条甚至感性的衡量方式,比如看每年的 IT 采购金额、IT 员工数量、工业标准产品的采购单价等,导致很多 IT 部门在采购时往往要求厂商保证提供同行业最低价,可当大家都这么要求的时候,显然很难真正起到效果。更为重要的是,由于每个企业在业务和 IT 服务方面存在的差异性,这些粗线条指标并不能反映 IT 部门的效率和效益水平。


ITIL 体系中早就提出了 IT 服务财务管理的概念,许多 IT 组织在过去十年尝试了一些 BSM(业务服务管理)和 ITFM(IT 财务管理)的项目,一个重要动因就是试图建立 IT 效益的衡量体系,可在内部 IT 部门中成功者寥寥,主要原因是全部精力投入到基础运维工作中还忙不过来,另一方面也和缺乏特别成功的最佳实践有关。


不过随着大家的不断尝试,伴随近年来 IT 架构的演进和公有云的兴起,一些走在前面的 IT 部门已经看到了建立 IT 效益衡量体系的可能性,并开始在某些架构层级上开始尝试性的探索:他们采用服务分层、成本归集、各自对标的方式,对 DC 层、IaaS 层、PaaS 层的资源单位成本、资源利用效率、能源单位成本、能源利用效率和人员运营效率进行分别统计和分析,并分别和 IDC、IaaS 云、PaaS 云的外部供应商市场价位水平做对照,来衡量自己的效率和效益水平。


IT 效益衡量体系的建立,也让 IT 自己可以从效益角度分解目标,推动 IT 内各个部门能够逐年不断提升效率和效益水平,让 IT 部门的思考方式从成本中心转变到利润中心。近年来绿色数据中心概念和 PUE 指标被关注,都反映了这一变化趋势。


要注意的是,即使建立了效益衡量体系,要让它真正发挥作用,离不开大量的数据统计和数据分析,以及关键效益指标的可视化和透明化,很多 IT 组织开始尝试建立 IT 运维/运营大数据平台,引入可视化和 BVD 概念,也都和追求 IT 效益可衡量有密切关系。而这些也会带来额外的投入,IT 组织可以根据自身的规模和目标优先级,在有必要的情况下,选择合适和成熟的切入点,分步尝试,逐渐建立效益衡量体系。


让员工满意


互联网企业的火热和各行业互联网+的热闹,都带来了 IT 人才的争夺,如何吸引和保留高素质的 IT 员工,已经成为许多 IT 部门不得不面对的新问题。要让 IT 员工满意,前面的两个满意(用户满意和老板满意)也是个重要基础,否则 IT 部门自己地位都不高,员工也没有成就感,士气低迷,满意度很难高起来。


但即使做到了前面两个满意,假如让 IT 员工每天都疲于奔命,员工满意度同样会差,也不是长久之计。要解决员工满意度的问题,有几个方面是要考虑到的:


  • 提高自动化水平:与运维阶段自动化更关注的是让标准化落地以减少故障不同,运营阶段更关注通过自动化减少员工的重复性劳动,更多地将精力放在能带来更大价值的标准制定和技术优化上面,让 IT 员工从技术工人变成真正的工程师;(自动化也会带来效益的提升,随着分布式、虚拟化和云计算的普及,自动化已经成为不可或缺的手段,在一些大型互联网公司,人均管理服务器数量早已超过了业界 1:200 的良好水平)

  • 增加人性化因素:传统运维阶段为了稳定安全不但在软硬件上投入巨大,而且往往在某种程度上不惜增加员工工作的繁琐程度,在人性化方面考虑较少。不少 IT 组织已经开始从几个方面进行改善:优化流程并引入新工具以减少员工的繁琐文案工作;提供场景化运维能力改善工具的易用性,让 IT 人员在运维和排障工作中更得心应手,提高 IT 系统稳定性的同时形成以工作场景为中心的运维方式;与时俱进引入新技术,在保持安全和风控水平的同时改善 IT 人员的操作复杂度(比如打破僵硬的网络隔离机制、实现移动化运维等);

  • 尝试和引入先进技术:为追求稳定安全,传统 IT 运维在技术选择和使用上偏向保守,这固然有其道理,但优秀的 IT 人往往是对新技术有追求的,在技术演进日新月异、新技术传播和应用速度如飞的今天,假如工作中接触不到新技术新思路,IT 人的技术追求被压抑,并往往会伴生强烈的技术危机感,会导致对 IT 人才吸引力和保持力不够。IT 部门应在技术规划中重视这一因素,在保证关键业务稳定运行的前提下,有意识有计划地不断尝试和引进新技术,确保技术的先进性,抛开其它收益不谈,但就提高员工满意度和优秀人才吸引力而言,已经是非常值得的。


以上从三个满意的角度简单聊了聊从 IT 运维到 IT 运营的一些内容,有趣的是,这些满意是递进和包含的关系,让员工满意包括让老板满意,让老板满意包括让用户满意,让业务部门满意包括让个人用户满意,但每个满意之间又都有各自的个性化内容。


要做到三个满意,让 IT 从“活着”到“活得好”,从重点“维”稳走向经营业务价值,意味着 IT 管理要更加精细化、自动化、智能化,也必须建立多样化的数据采集、多维度的数据分析/挖掘和全方位的可视化的能力,IT 运营管理的架构也将在传统监管控的 IT 运维管理架构上有所发展和变化,以适应 IT 运营在体验、效率和效益方面的更多要求。


需要注意的是,IT 涉及到规划、设计、开发和运营多个环节,我们更多的是从运营的角度来谈的,事实上要从 IT 运维走向 IT 运营,不仅需要运营部门(不再只是运维部门啦)的努力,也需要规划、管理和开发部门的协同配合和齐头并进。


从 IT 运维到 IT 运营,其实标志着 IT 组织成熟度的提升,假如借用 Gartner 的 I&O 成熟度模型来看的话,IT 运维更多是在前几个阶段,而更多开始关注 IT 运营,则标志着 IT 组织走到了后两个阶段:Service Aligned 和 Business Partnership,开始把 IT 本身当做业务来运营,以客户为中心,关注客户体验,运营效率和成本收益。


以上是关于 IT 运维到 IT 运营的一些不成熟的思考,抛砖引玉,希望能得到大家的批评和指教。


从 IT 运维到 IT 运营,许多 IT 组织已经在路上,同样也有许多 IT 产品和 IT 服务的提供商已经洞悉到这一发展趋势,配合 IT 运营的要求,开发和提供了许多新的运营工具和运营服务,我们希望能够与各位有志于 ITOM 领域的同仁们一起,齐心协力,精益求精,共同提供优秀的 ITOM 产品和服务,为 IT 从运维到运营做一点事情,让 IT 不仅活着,而且要活得好,活得精彩。


本文转载自成哥的世界公众号。


原文链接:https://mp.weixin.qq.com/s/VqphIrHZ_JTFg3nwt41YPg


2020-03-16 20:282407

评论

发布
暂无评论
发现更多内容

C++编译过程 宏 内联和静态变量

正向成长

MySQL 百万级数据量分页查询方法及其优化

xcbeyond

SQL优化 数据库优化

门面效应 - 拒绝别人会产生愧疚吗?

石云升

心理学 门面效应 留面子效应

第8周-作业1

seng man

ARTS 06 - Jenkins 多分支项目过滤及 when 的高级用法

jerry.mei

学习 算法 ARTS 打卡计划 CI/CD ARTS活动

百万并发「零拷贝」技术系列之Linux实现

码农神说

Java 架构 零拷贝

架构师训练营第八周课后总结

Cloud.

应用程序研发之网络 - Http

superman

第8周-作业2

seng man

从零开始写一个迷你版的Tomcat

简爱W

应用程序研发之网络-分层模型

superman

Jenkins 多分支项目过滤及 when 的高级用法

jerry.mei

DevOps 运维 自动化 jenkins CI/CD

封装element-ui表格,我是这样做的

前端有的玩

Java Vue Element 封装

轻松应对并发问题,Newbe.Claptrap 框架中 State 和 Event 应该如何理解?

newbe36524

分布式 微服务 架构设计 .net core ASP.NET Core

读完《云原生架构白皮书》,我们来谈谈开放应用模型(OAM)

郭旭东

Kubernetes 云原生 OMA

LeetCode题解: 206. 反转链表,JavaScript,容易理解的递归解释,详细注释

Lee Chen

大前端 LeetCode

应用程序研发之网络-网络编程模型

superman

JDK1.8新特性(六):Stream的终极操作,轻松解决集合分组、汇总等复杂操作

xcbeyond

stream 集合 JDK1.8 Collections JDK1.8新特性

程序的机器级表示-访问数据

引花眠

ARTS打卡 第9周

引花眠

ARTS 打卡计划

5万字长文:Stream和Lambda表达式最佳实践-附PDF下载

程序那些事

Java jdk Lambda stream

Flink 使用大状态时的一点优化

Apache Flink

flink RocksDB

云图说|“真人?机器?傻傻分不清!” WAF Bot管理,带你慧眼辨“精”!

华为云开发者联盟

bootstrap 搜索引擎 安全 防火墙 华为云

第8周作业

小胖子

计算机的时钟(二):Lamport逻辑时钟

ElvinYang

MySQL主从复制详解

Simon

MySQL 主从复制

耦合层:撮合物联网的理论与实践牵手的“月老”

华为云开发者联盟

AI 物联网 IoT 低耦合 华为云

安全系列之——手写JAVA加密、解密

诸葛小猿

对称加密 加密解密 非对称加密 rsa AES

Java 8 中的函数式接口

陈皮

初识进程coredump(以中间件为例)异常宕机

清康

简易web性能工具

鲁米

IT:从运维到运营_软件工程_成哥的世界_InfoQ精选文章