写点什么

博睿数据 CTO 孟曦东:发挥 AIOps 价值需在数据质量下功夫

  • 2021-08-19
  • 本文字数:3631 字

    阅读完需:约 12 分钟

博睿数据CTO孟曦东:发挥AIOps价值需在数据质量下功夫

2016 年,Gartner 提出了 AIOps(智能运维)这一概念,即利用 AI 技术的新一代 IT 运维,旨在通过算法进一步解决企业遇到的运维难题。随后,AIOps 的概念得到了广泛普及和发展。

 

当前随着千行百业数字化转型进程加快,AIOps 市场发展速度也迈上了新的台阶。2021 年 7 月 13 日,Gartner 在《2021 年中国 ICT 技术成熟度曲线报告》中指出,AIOps 的持续发展推动了 IT 运营管理市场(ITOM)的增长,2020 年全球 AIOps 市场规模在 9 亿美元至 15 亿美元之间,2020 年至 2025 年的年复合年增长率约为 15%。

 

在 Gartner 的《2021 年中国 ICT 技术成熟度曲线报告》中,博睿数据成功入选了 AIOps 代表厂商。日前,InfoQ 采访到了博睿数据创始人兼 CTO 孟曦东,和他聊了聊当前国内 AIOps 的实践与发展。


博睿数据创始人兼 CTO 孟曦东

AI+运维

 

在过去的数十年间,运维发展经历了数个阶段。从早期的手工运维到标准化运维、自动化运维,再到 DevOps、AIOps,追溯整个历程不难发现,运维方式随着技术的不断发展,逐渐迈向智能化。

 

所谓的 AIOps,简单理解就是基于自动化运维,将 AI 和运维很好的结合起来。

 

在孟曦东看来,AI 是一项通用技术,在很多场景中都可以得到应用。在运维工作中,借助 AI 技术,现有工作可以得到更好的辅助。在过去,遇到无法解决的技术难题时技术人员通常会求教于他人,在 AI 的加持下,AI 技术会自动匹配知识库,降低学习成本和使用门槛。

 

此外,AI 也能够为运维工作赋能增效。随着互联网快速发展,业务组件越来越复杂,数据体量也呈现爆发式增长态势。面对庞大的数据,单纯依靠人力去分析成本巨大,而借助 AI 技术,可以把数据的价值挖掘到最大化,同时在工作效率上也能得到极大提升。

 

“如果你想要更高效、更准确的自动化运维,一定要具备更好的数据决策。而数据决策不能单纯依靠人力去做,要交给机器来做。”

AIOps 是一个长期演进的过程

 

虽然 AI 技术给运维工作带来的价值显而易见,但需要明确的是,AIOps 的实践不是一蹴而就的,而是一个长期演进的过程,需要逐步发展。

 

当前来看,企业的 AIOps 实践主要面临以下几大难题:

 

第一,海量数据的获取。AIOps 本就是基于已有的运维数据,并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。企业实现 AIOps 的前提是建立起全面获取 IT 数据的能力,这里的数据主要包括但不限于日志、指标和事件等。将这些数据输送给 AIOps 平台,为 AIOps 提供数据资产,以进行整合的更高级别的分析和洞察。如果没有这些大数据的支持,AIOps 则是无源之水。所以对于企业来说,大数据采集工作至关重要。

 

第二,打破数据孤岛。一些企业不同域的 IT 监控工具被部署为孤立的解决方案,虽然能满足 IT 运营中的特定团队需求,但彼此形成数据孤岛,固有的企业文化和组织架构制约数据融合。对于企业来说,如何打破数据孤岛,建立数据资产的统一管理仓库,是需要进一步思考和解决的问题。 

 

虽然 AIOps 的概念诞生于 2016 年,但在国内直到 2017、2018 年才开始有企业陆续应用、推出商业化产品。“2020 年是一个分界点”,孟曦东提到,彼时,国外在 AIOps 领域已有一些成熟的应用,另根据 Gartner 预测,到 2022 年,40%的大中型企业将部署 AIOps 平台

 

“对于国内企业来说,AIOps 第一阶段应用是在 2020 年,在此之前更多是在做准备、培育市场,但还没有成熟的、实际落地的应用案例。2020 年以后,我们也看到在真实场景里有落地案例,至于效果好与坏,其实与数据治理程度有关。如果数据质量很好,那么最终的运营效果就会很好。”孟曦东说道。

 

当前 AIOps 的主要应用场景有基线预测、异常检测、智能告警、根因分析等,在某些单维度、周期性的场景下,AIOps 已在应用上取得一定的效果,但在多维度海量数据场景下,AIOps 要想发挥最大的价值,还需要企业多在数据质量上下功夫。

 

以根因分析为例,如果数据质量不高,那么依靠 AIOps 做根因定位显然不靠谱。“当前很多企业存在的问题是数据质量不高,这里所谓的质量包含了多种含义,包括数据的丰富度、采集的精度、定义的标准等等。当前很多公司都在做数据治理,目的就是要把数据的质量提升上来。因为和 AI 结合最紧密的还是数据,如果你的数据出现问题,那你的 AI 也会出现问题。”

 

在数据质量之外,孟曦东认为工程能力也是一项非常重要的能力。“如果你有一个很好的算法,并且又具备工程落地的能力,能把它去真正实现产品化,就能够为市场带来商业价值。不过总的来说,数据一定是基础,是发挥 AIOps 价值的第一步,第一步走好才能走第二步、第三步。”

 

在 AIOps 实践方面,博睿数据依托多年 APM 行业积累,已具备丰富的数据集合。依托 IT 运维监控能力,利用大数据和机器学习技术持续构建智能运维监控能力,博睿数据先后推出了搭载了 AI 能力的新一代 APM 产品 Server7.0 和统一智能运维大数据平台 Dataview。

 

2021 年,博睿数据在国内首次提出了“服务可达的数据链 DNA”技术理念,D 代表 DEM(数字体验管理),N 代表 NPM(网络性能管理),A 代表 APM(应用性能管理),从而打通从代码到用户访问的全过程,进一步释放企业 IT 运维监控管理所有分支领域 DEM、APM、ITIM、NPM 和智能运维管理的能力。

 

“当前在运维领域,AI 技术的应用还是刚刚起步,慢慢成熟,我认为未来的 3-5 年,AI 技术会广泛应用到运维场景中。”孟曦东展望道。

有了 AIOps,运维人员会失业吗?

 

随着数字化转型脚步加快,当前国内已有不少企业在 AIOps 领域做一些持续尝试。

 

Gartner 在《2021 年中国 ICT 技术成熟度曲线报告》中具体分析 AIOps 市场采用率上升的因素时表示,中国企业已经开始采用 AIOps 平台,与一些传统的监控工具类别进行竞争和替代。例如,在 AIOps 平台内完成监控 IaaS 和实现可观察性,尤其是当企业将 IT 基础设施迁移入云之后。此外,中国企业正在扩大在 ITOM 的各个方面增加对 AIOps 的使用,并在 DevOps 和 SRE 实践中完善使用场景。

 

对于运维人员来说,一个普遍关心的问题是:如果企业转型为 AIOps,自己是否会失业?

 

在孟曦东看来,这个问题的答案显然是否定的,至少在可预见的 3-5 年内不会出现。“可以预见的是,运维岗位会随着技术的进步,岗位职责会发生变化,由基础走向更高级。”

 

一方面,运维人员需要具备规划顶层设计的能力。AI 能够解决的问题通常是把比较简单的、机械的重复性工作变得更高效,节约人力成本,从而让人力能够把时间和精力放在 AI 覆盖不到的场景上去做统筹设计。比如在金融领域中,运维人员可以制定一些安全制度等等。

 

另一方面,运维人员需要做一些协调和管理类的工作,并对未来做预测和规划。3 年、5 年后的 AI 很可能与现阶段的 AI 存在翻天覆地的变化,至于未来的 AI 模型是什么样,需要技术人员提前做出判断。

 

孟曦东认为,AIOps 的核心点在于能够降低运维人员的门槛。过去通常要求运维人员拥有 3-5 年的知识储备和积累,但在 AI 的加持下,这一时间能够大幅得到缩减。此外,AIOps 也能缩减低附加值的岗位人员,自动化完成这部分工作,降低企业人力成本。

 

“当一个新技术在推进的时候,就会出现新的岗位,这些新岗位会覆盖掉一些低附加值的岗位。有岗位被覆盖,但也总会有新的岗位出现。”

国产基础软件生态建设是关键

 

作为国内 APM 应用性能管理厂商,博睿数据不断将业务概念进行延伸拓展。随着国内大数据、AI 等技术快速发展,国内基础软件发展也步入快车道。2019 年,博睿数据开始关注国内基础软件领域,当前已对多款国产基础软件做了适配工作。

 

至于适配初衷,孟曦东坦言一方面基于公司定位做出这个决策,另一方面也希望能通过一个客观度量工具,帮助国产软件真正地去替代国外软件。

 

“我们的定位是做数据的采集、分析以及消费,并且能够帮助客户达成业务价值,这个链条里面相对比较重要的一个环节就是数据采集,所以我们必须要做好适配工作。此外,任何系统在不同的业务场景下可能都会存在短板,如果仅依靠人的感知很容易产生偏离,因此需要一套客观的度量工具,这样才能知道问题到底出现在哪里。”

 

对于最重要的国产操作系统之一鸿蒙,博睿数据也已完成适配工作。“我们一直非常关注华为的技术迭代,在他们还没有正式发布鸿蒙之前,我们就已经开始接触了,我们也希望不管是国产的芯片还是操作系统,都能拥有很好的生态土壤。”

 

在孟曦东看来,过去国产基础软件市场在生态建设方面存在短板,近几年在国家的重视和市场的关注下,越来越多的企业愿意加入到生态建设中去。此外,当前在基础软件领域标准化产品比较少,只有企业在标准化产品上持续投入,才能慢慢打磨成精品。而一旦陷入定制化需求研发中,就会变成按需投入人力,成本巨大。

写在最后

 

对于国内 AIOps 以及基础软件的未来发展,孟曦东表示很有信心。

 

在他看来,中国市场足够大,数据也足够丰富,而在国家战略和政策的支持下,传统制造业正向智能创造逐步发展,发展的过程中必然会涉及大量数据处理,而这也是 AI 技术的强项。


采访嘉宾:

 

孟曦东,博睿数据创始人兼 CTO。1998 年 8 月至 2000 年 3 月,任中国航空第 303 研究所软件工程师;2000 年 3 月至 2008 年 1 月,任北京千龙新闻网络传播有限责任公司技术总监;2008 年 2 月至 2016 年 2 月,任博睿数据首席技术官;自 2016 年 2 月至今,任博睿数据董事、副总经理。

2021-08-19 15:515425

评论

发布
暂无评论
发现更多内容

Serverless 工程实践 | 零基础上手 Knative 应用

阿里巴巴云原生

阿里云 Serverless 云原生 Knative

面试作弊神器?!阿里P8亲自撰写的这份Java最新面试手册

Java 程序员 架构 面试 后端

Facebook宕机事故,暴露了上云不是唯一的答案

脑极体

ToB产品如何自传播(下)

石云升

产品经理 产品思维 10月月更

gRPC,爆赞

AlwaysBeta

golang 编程 gRPC 后端 Go 语言

隐蔽的角落-这次我们只聊Cilium IPAM

Lance

Prometheus 基础查询(一)

耳东@Erdong

Prometheus 10月月更

Groovy 记录(2)-CompilationUnit

春秋易简

Node.js 日志之 winston 实践

devpoint

nodejs winston logger 10月月更

实践篇 -- Redis客户端缓存在SpringBoot应用的探究

binecy

缓存 springboot redis sentinel

区块链技术赋能音乐作品版权保护 法院采信存证证书作为有效权属证据

CECBC

五分钟了解 Blazor

智联大前端

blazor

基于区块链的供应链金融创新

CECBC

从Engineer到Leader,我在思考啥?

夏兮。

互联网 管理 技术人 IT

Groovy记录(1)-GroovyClassLoader

春秋易简

Groovy

【Vuex 源码学习】第十二篇 - Vuex 插件机制的实现

Brave

源码 vuex 10月月更

阿里架构师总结Go语言和java语言之间的对比联系

hanaper

面试官:你说说ThreadLocal为什么会导致内存泄漏?

长河

Java

Alibaba最新微服务持续集成,内含(Jenkins+Docker+Spring Cloud+K8S)

Java 架构 面试 程序人生 编程语言

艺术市场的区块链革命

CECBC

趣说Node.js的回调函数

Regan Yue

node.js JavaScrip Regan Yue 10月月更

双非学历为进大厂天天刷Java面试题,面试却履败,原因竟是算法?

Java 编程 程序员 架构 IT

存量时代会员深度运营逻辑

boshi

深度思考 运营

学生试卷&答题结构redis存储

Nico

业界良心啊!第五次更新的Spring Cloud Alibaba升级太多内容

Java 编程 程序员 IT 计算机

并发相关的性质学习笔记

风翱

并发 10月月更

应用出海,如何使用苹果 CallKit 提升网络通话体验

融云 RongCloud

音视频 出海社交

前后端、多语言、跨云部署,全链路追踪到底有多难?

阿里巴巴云原生

阿里云 云原生 全链路追踪

「架构师教程」二十年架构师「马士兵」大牛的Java高级架构师教程

Java 编程 程序员 IT 计算机

拿蚂蚁offer,全靠阿里P8大牛总结的Java架构开发手册

Java 编程 程序员 架构 面试

SSRF漏洞实例分析

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 漏洞分析

博睿数据CTO孟曦东:发挥AIOps价值需在数据质量下功夫_文化 & 方法_凌敏_InfoQ精选文章