写点什么

解放双手,发掘更大的价值:智能化运维

  • 佚名

  • 2016-12-16
  • 本文字数:2664 字

    阅读完需:约 9 分钟

目前业界真正的智能化运维的落地实践其实并不多,大多还是停留在自动化甚至人工化阶段,然而智能化运维是大势所趋,对于大公司来说,更是尤为重要。阿里大数据 SRE 团队历时 2 年时间完成了 Tesla 这一智能化运维体系的设计、开发和落地。基于此,我们采访了阿里 Tesla 体系负责人熊胜(池枫),希望能带给大家对智能化运维的一些新的思考。

InfoQ:什么是智能化运维?请谈下您的理解。

熊胜:2016 年可以说是人工智能的元年,各行各业都在讨论智能化,都在尝试将智能在各自领域落地。运维这个传统意义中“劳动密集型”行业对智能化的诉求其实更有现实意义。

我将运维方式分 4 个层次,“人工、自动、智能、智慧”,我通过蔬菜大棚浇水灌溉的案例来进行类比:“人工”的概念就是我们农民亲自挑水,然后一株一株的浇;“自动”就是我们在这个大棚里面部署好了洒水管,人只要打开水管总阀,就完成了浇水的动作,省去了一大部分的体力劳动;“智能”就是整个大棚可以根据环境、天气、时间等日常基于传统农业思维的的变化而进行自主的浇水灌溉,它可以替代一个高级农业生产者基本的能力。另外我们今天要引出一个“智慧”化的概念,就是我们的这套体系能够精确化了解每一株作物的实时状态,再判断他是否需要水,需要多少水后进行定制灌溉的智能系统,这样既能够省水又可使得作物生长更好,这个时候这套系统控制大棚灌溉的效率已经超出我们人在这个领域的能力。

InfoQ:目前业界智能化运维的发展状况如何?

熊胜:当前的运维行业可以说是处在一个人工、自动、智能互相交叠的时期,任何一家公司都希望将人工运维的风险控制在最低限度,并使用流程系统自动去完成日常的运维工作。然后通过提升应用监控的质量以及大规模日志的分析能力,在部分运维事务中形成闭环,完成自治运维。随着大数据、人工智能的兴起,我们愈发不满足于了解当下,希望能精准的预见未来,所以智慧化也悄然而起。

InfoQ:你们的智能化运维使用了哪些技术产品?为什么选择这些技术?

熊胜:阿里大数据 SRE 团队智能化通过 Tesla 产品体系建设和各类在阿里大数据产品之上完成的数据化运营来实现。Tesla 有一整套自动化解决方案,如 T-flow 一种运维工作流程管理平台,如 ICS 一种通用化的连接事件和动作的智能连接平台,如 TDS 故障智能排查平台等。我们采用 logtail 完成业务日志收集,通过大数据产品 MaxCompute 离线计算平台和 Galaxy 流计算引擎进行数据处理。

选择这些技术产品,首先是基于我们对自动化、智能化、智慧化三个阶段的拆分和判断;其次是满足我们对积蓄未来数据的渴求。

InfoQ:能否谈下你们在智能化运维实施过程中的几个关键点?

熊胜:如之前所述,智能化依赖自动化,自动化好比替换人的双手,再智慧的人,没有行动能力,那也只是停留在纸上谈兵阶段。同理,不会独立思考的系统也只是一个木偶,行动也只会盲目混乱。所以,我们在实施过程中紧紧抓住两个关键点:末端控制系统建设和运营分析系统建设。

其中在末端系统上先后完成了 T-flow (Tesla workflow management platform) 、AEC(app environment config)、CC(crond center)等系统来解放我们运维人员的双手。在运营分析体系建设上,我们通过建设统一 paas 平台,推动产品提供全面运维标准化支持方案,实现产品业务数据收集的标准化。利用流计算平台,实时分析我们业务运行日志,判断系统容量、服务等状态的变化,驱动我们的自动化产品进行联动。利用日积月累的海量数据,离线分析产品资源利用的合理性和制定长期的规划。

InfoQ:你们是如何实现智能化运维监控的?如何推进智能化运维的落地?

熊胜:这里提到智能化运维监控,我认为是一个以传统监控数据为基础,通过大数据的计算能力挖掘和预测的过程。传统的监控为了发现现在的错误,智能化监控为了预测潜在的问题,进而实现更加全面和体系化的监控生态。

我们在智能化运维监控领域目前也只能说刚刚起步,仍然有大量的工作要去做,具体落地方向包括推进各类产品指标输出的标准化、代码仓库和故障源的关联分析,最重要的是基于具体产品业务的数据提升特定关键指标去逐步推进。

InfoQ:您觉得如何建设一个高效易用的智能化运维体系,具体的实现需要考虑哪些因素?其中最大的困难和问题是什么?

熊胜:体系首先是由产品组成的,运维体系同时也跟运维的业务紧密不可分,所以我认为产品设计和业务匹配度是核心因素。如何设计一个能够兼顾多种异构业务的运维产品是首先要解决的困难,另外就是人的因素,被动向主动转变,传统的业务能力与最新的数据分析技术的结合也是关键。

InfoQ:智能化运维是否意味着运维工作量的减少?智能化运维的价值主要体现在哪些方面?

熊胜:我觉得“运维工作”今天需要被重新定义,传统的运维被赋予繁重但是低价值的标签,就如石油钻井平台的产业工人,干着又苦又有风险的工作,苦劳远大功劳。但是其实我们一直是站在黑色的金子之上没有去发现,石油经过加工提炼可以生成出昂贵的产品例如(化妆品)。通过智能化运维只是降低了我们在“传统运维”事务上时间的投入,但有更长的产业链需要我们进入挖掘,运维工作向上关联业务发展,向下关联基础建设,对整个公司的长期发展能起到举足轻重的作用。所以相反,我们的工作变的更“多”更“重”了!跳出传统的运维思维,压力相比之前更为巨大。

智能化运维的价值不仅让我们运维人相比以前可以更加省力了,而且能使我们有更大的精力投入到更高附加值的运维事务中。通过技术、数据提升人力资源、财务资源、基础建设等方面的效率,在整个公司生态中拥有更大的话语权,这才是真正的运维价值。

InfoQ:您认为从“起夜家”到“数据驱动的业务专家”华丽转型的优秀智能运维人员需要具备哪些能力?有哪些途径可以帮助成长?

熊胜:我认为优秀的运维人员转型需要具备以下能力:

  1. 对基础的系统掌握能力
  2. 对业务产品的理解能力
  3. 优秀的编码能力(精通 python、java、Golang 等)
  4. 容器化、大数据计算、机器学习算法与业务场景结合的能力。

这 4 个方向里面涉及到的内容其实非常广泛,每一块都需要较大精力的投入和长时间的积累。没有特别的捷径,多实践多思考吧!

InfoQ:感谢熊胜接受我们的采访!

受访嘉宾介绍

熊胜(池枫),2011 年加入阿里巴巴基础架构事业部大数据 SRE 部门,见证阿里大数据产品最快速的发展过程,先后负责阿里 Hadoop、HBase、Apsara、ODPS 等产品运维,全程负责大数据运维自动化体系建设。目前负责大数据 SRE 自动化开发团队,历时 2 年时间带领团队完成 Tesla 自动化体系设计、开发、落地、进化历程。专注智能运维在大规模异构集群下的场景应用,专注业务运维与智能运维结合后的转型道路探求。

2016-12-16 06:433878

评论

发布
暂无评论
发现更多内容

你掌握了吗?在PCB设计中,又快又准地放置元件

攻城狮华哥

模块 元器件 PCB 原理图 PCB设计

数仓发展史:大数据的“底气”来自于哪?

鼎道智联

大数据 数据仓库

虚拟机专用Win10/win11系统镜像下载(m1/intel合集)

真大的脸盆

Mac win10 Mac 软件 win11 win镜像文件

远程控制电脑软件哪个好?

RayLink

远程控制软件 远控软件 远程桌面连接

手把手教小伙伴们使用 Nginx 部署 TienChin 项目!

江南一点雨

Java nginx Vue 前后端分离 springboot

镜舟数据库与用友 YonBIP 完成兼容性认证,携手赋能企业数智化发展

镜舟数据库

数据库

2023腾讯最新发布JVM调优笔记,轻松拿捏JVM面试,调优

开心学Java

Java JVM GC

最新Github霸榜标星96K!号称Java八股“PLUS”版,限时开源!

Java编程日记

Java 程序员 架构 Java 面试 java程序员

火山引擎DataTester:抖音的设计团队是如何用A/B测试实现高效优化的?

字节跳动数据平台

大数据 AB testing实战 抖音 A/B 测试 企业号 3 月 PK 榜

基于ByteHouse构建实时数仓实践

字节跳动数据平台

数据库 云原生 Clickhouse 企业号 3 月 PK 榜

软件测试/测试开发丨app自动化测试之模拟器控制

测试人

软件测试 自动化测试 Android Studio 测试开发 appium

2023 年开源现状报告确认安全是首要问题

开源雨林

统计学 开源软件 开源现状

对话 BitSail Contributor | 吴畅:从好奇,到深入

字节跳动数据平台

大数据 开源 开发者 数据集成 企业号 3 月 PK 榜

中国券商数字化转型趋势报告2023

易观分析

金融 券商 经济

云原生月报丨值得开发者关注的最新动态

阿里巴巴中间件

阿里云 云原生 月报

Open-GeoIP:超简单的开源IP地址位置查询服务

冯骐

golang 开源 网络 ip地理定位 geoip

解决方案| anyRTC融合腾讯会议

anyRTC开发者

音视频 视频会议 视频通话 融合会议 腾讯会议

2023年市场快速恢复,社交资讯营销如何把握新机遇

易观分析

社交 资讯

软件测试/测试开发丨app自动化测试之Capability 使用进阶

测试人

软件测试 自动化测试 测试开发 appium capability

天天预约|新功能工具「美团优惠券」上线啦!

天天预约

MobPush,专业和免费的消息推送SDK

MobTech袤博科技

计算界年度大赛“先导杯”再度来袭!

科技热闻

直播|SeaTunnel 与 StarRocks 生态融合--让大数据处理回归「简单」

StarRocks

数据库 数据库·

数字孪生智慧停车场三维可视化管理云平台

2D3D前端可视化开发

智慧停车场 停车场三维可视化 数字孪生智慧停车 无人值守停车场 停车场物联网系统

国内首家!云科通明湖应用交付控制器通过金融信创生态实验室适配验证

云科通明湖

《流浪地球2》里的机器人企业,如何高质量地交付产品?

万事ONES

宝刀未老?低代码何德何能受大厂们的推崇

这我可不懂

低代码 数字化 大厂 JNPF

Github霸榜!由阿里出品的最新java面试极速突击核心讲

Java编程日记

Java 架构 面试 java程序员 java面试

使用 CnosDB 与 TensorFlow 进行时间序列预测

CnosDB

tensorflow 时序数据库 时间序列预测 CnosDB

对话抖音电商:量级庞大、参差不齐,“数据质量治理”有妙招!

字节跳动数据平台

大数据 数据治理 电商 抖音 企业号 3 月 PK 榜

腾讯首席架构师亲自码出的“Redis深度笔记”PDF版限时分享

开心学Java

Java 数据库 redis 腾讯

解放双手,发掘更大的价值:智能化运维_DevOps_InfoQ精选文章