写点什么

博睿数据 CTO 孟曦东:发挥 AIOps 价值需在数据质量下功夫

  • 2021-08-19
  • 本文字数:3631 字

    阅读完需:约 12 分钟

博睿数据CTO孟曦东:发挥AIOps价值需在数据质量下功夫

2016 年,Gartner 提出了 AIOps(智能运维)这一概念,即利用 AI 技术的新一代 IT 运维,旨在通过算法进一步解决企业遇到的运维难题。随后,AIOps 的概念得到了广泛普及和发展。

 

当前随着千行百业数字化转型进程加快,AIOps 市场发展速度也迈上了新的台阶。2021 年 7 月 13 日,Gartner 在《2021 年中国 ICT 技术成熟度曲线报告》中指出,AIOps 的持续发展推动了 IT 运营管理市场(ITOM)的增长,2020 年全球 AIOps 市场规模在 9 亿美元至 15 亿美元之间,2020 年至 2025 年的年复合年增长率约为 15%。

 

在 Gartner 的《2021 年中国 ICT 技术成熟度曲线报告》中,博睿数据成功入选了 AIOps 代表厂商。日前,InfoQ 采访到了博睿数据创始人兼 CTO 孟曦东,和他聊了聊当前国内 AIOps 的实践与发展。


博睿数据创始人兼 CTO 孟曦东

AI+运维

 

在过去的数十年间,运维发展经历了数个阶段。从早期的手工运维到标准化运维、自动化运维,再到 DevOps、AIOps,追溯整个历程不难发现,运维方式随着技术的不断发展,逐渐迈向智能化。

 

所谓的 AIOps,简单理解就是基于自动化运维,将 AI 和运维很好的结合起来。

 

在孟曦东看来,AI 是一项通用技术,在很多场景中都可以得到应用。在运维工作中,借助 AI 技术,现有工作可以得到更好的辅助。在过去,遇到无法解决的技术难题时技术人员通常会求教于他人,在 AI 的加持下,AI 技术会自动匹配知识库,降低学习成本和使用门槛。

 

此外,AI 也能够为运维工作赋能增效。随着互联网快速发展,业务组件越来越复杂,数据体量也呈现爆发式增长态势。面对庞大的数据,单纯依靠人力去分析成本巨大,而借助 AI 技术,可以把数据的价值挖掘到最大化,同时在工作效率上也能得到极大提升。

 

“如果你想要更高效、更准确的自动化运维,一定要具备更好的数据决策。而数据决策不能单纯依靠人力去做,要交给机器来做。”

AIOps 是一个长期演进的过程

 

虽然 AI 技术给运维工作带来的价值显而易见,但需要明确的是,AIOps 的实践不是一蹴而就的,而是一个长期演进的过程,需要逐步发展。

 

当前来看,企业的 AIOps 实践主要面临以下几大难题:

 

第一,海量数据的获取。AIOps 本就是基于已有的运维数据,并通过机器学习的方式来进一步解决自动化运维没办法解决的问题。企业实现 AIOps 的前提是建立起全面获取 IT 数据的能力,这里的数据主要包括但不限于日志、指标和事件等。将这些数据输送给 AIOps 平台,为 AIOps 提供数据资产,以进行整合的更高级别的分析和洞察。如果没有这些大数据的支持,AIOps 则是无源之水。所以对于企业来说,大数据采集工作至关重要。

 

第二,打破数据孤岛。一些企业不同域的 IT 监控工具被部署为孤立的解决方案,虽然能满足 IT 运营中的特定团队需求,但彼此形成数据孤岛,固有的企业文化和组织架构制约数据融合。对于企业来说,如何打破数据孤岛,建立数据资产的统一管理仓库,是需要进一步思考和解决的问题。 

 

虽然 AIOps 的概念诞生于 2016 年,但在国内直到 2017、2018 年才开始有企业陆续应用、推出商业化产品。“2020 年是一个分界点”,孟曦东提到,彼时,国外在 AIOps 领域已有一些成熟的应用,另根据 Gartner 预测,到 2022 年,40%的大中型企业将部署 AIOps 平台

 

“对于国内企业来说,AIOps 第一阶段应用是在 2020 年,在此之前更多是在做准备、培育市场,但还没有成熟的、实际落地的应用案例。2020 年以后,我们也看到在真实场景里有落地案例,至于效果好与坏,其实与数据治理程度有关。如果数据质量很好,那么最终的运营效果就会很好。”孟曦东说道。

 

当前 AIOps 的主要应用场景有基线预测、异常检测、智能告警、根因分析等,在某些单维度、周期性的场景下,AIOps 已在应用上取得一定的效果,但在多维度海量数据场景下,AIOps 要想发挥最大的价值,还需要企业多在数据质量上下功夫。

 

以根因分析为例,如果数据质量不高,那么依靠 AIOps 做根因定位显然不靠谱。“当前很多企业存在的问题是数据质量不高,这里所谓的质量包含了多种含义,包括数据的丰富度、采集的精度、定义的标准等等。当前很多公司都在做数据治理,目的就是要把数据的质量提升上来。因为和 AI 结合最紧密的还是数据,如果你的数据出现问题,那你的 AI 也会出现问题。”

 

在数据质量之外,孟曦东认为工程能力也是一项非常重要的能力。“如果你有一个很好的算法,并且又具备工程落地的能力,能把它去真正实现产品化,就能够为市场带来商业价值。不过总的来说,数据一定是基础,是发挥 AIOps 价值的第一步,第一步走好才能走第二步、第三步。”

 

在 AIOps 实践方面,博睿数据依托多年 APM 行业积累,已具备丰富的数据集合。依托 IT 运维监控能力,利用大数据和机器学习技术持续构建智能运维监控能力,博睿数据先后推出了搭载了 AI 能力的新一代 APM 产品 Server7.0 和统一智能运维大数据平台 Dataview。

 

2021 年,博睿数据在国内首次提出了“服务可达的数据链 DNA”技术理念,D 代表 DEM(数字体验管理),N 代表 NPM(网络性能管理),A 代表 APM(应用性能管理),从而打通从代码到用户访问的全过程,进一步释放企业 IT 运维监控管理所有分支领域 DEM、APM、ITIM、NPM 和智能运维管理的能力。

 

“当前在运维领域,AI 技术的应用还是刚刚起步,慢慢成熟,我认为未来的 3-5 年,AI 技术会广泛应用到运维场景中。”孟曦东展望道。

有了 AIOps,运维人员会失业吗?

 

随着数字化转型脚步加快,当前国内已有不少企业在 AIOps 领域做一些持续尝试。

 

Gartner 在《2021 年中国 ICT 技术成熟度曲线报告》中具体分析 AIOps 市场采用率上升的因素时表示,中国企业已经开始采用 AIOps 平台,与一些传统的监控工具类别进行竞争和替代。例如,在 AIOps 平台内完成监控 IaaS 和实现可观察性,尤其是当企业将 IT 基础设施迁移入云之后。此外,中国企业正在扩大在 ITOM 的各个方面增加对 AIOps 的使用,并在 DevOps 和 SRE 实践中完善使用场景。

 

对于运维人员来说,一个普遍关心的问题是:如果企业转型为 AIOps,自己是否会失业?

 

在孟曦东看来,这个问题的答案显然是否定的,至少在可预见的 3-5 年内不会出现。“可以预见的是,运维岗位会随着技术的进步,岗位职责会发生变化,由基础走向更高级。”

 

一方面,运维人员需要具备规划顶层设计的能力。AI 能够解决的问题通常是把比较简单的、机械的重复性工作变得更高效,节约人力成本,从而让人力能够把时间和精力放在 AI 覆盖不到的场景上去做统筹设计。比如在金融领域中,运维人员可以制定一些安全制度等等。

 

另一方面,运维人员需要做一些协调和管理类的工作,并对未来做预测和规划。3 年、5 年后的 AI 很可能与现阶段的 AI 存在翻天覆地的变化,至于未来的 AI 模型是什么样,需要技术人员提前做出判断。

 

孟曦东认为,AIOps 的核心点在于能够降低运维人员的门槛。过去通常要求运维人员拥有 3-5 年的知识储备和积累,但在 AI 的加持下,这一时间能够大幅得到缩减。此外,AIOps 也能缩减低附加值的岗位人员,自动化完成这部分工作,降低企业人力成本。

 

“当一个新技术在推进的时候,就会出现新的岗位,这些新岗位会覆盖掉一些低附加值的岗位。有岗位被覆盖,但也总会有新的岗位出现。”

国产基础软件生态建设是关键

 

作为国内 APM 应用性能管理厂商,博睿数据不断将业务概念进行延伸拓展。随着国内大数据、AI 等技术快速发展,国内基础软件发展也步入快车道。2019 年,博睿数据开始关注国内基础软件领域,当前已对多款国产基础软件做了适配工作。

 

至于适配初衷,孟曦东坦言一方面基于公司定位做出这个决策,另一方面也希望能通过一个客观度量工具,帮助国产软件真正地去替代国外软件。

 

“我们的定位是做数据的采集、分析以及消费,并且能够帮助客户达成业务价值,这个链条里面相对比较重要的一个环节就是数据采集,所以我们必须要做好适配工作。此外,任何系统在不同的业务场景下可能都会存在短板,如果仅依靠人的感知很容易产生偏离,因此需要一套客观的度量工具,这样才能知道问题到底出现在哪里。”

 

对于最重要的国产操作系统之一鸿蒙,博睿数据也已完成适配工作。“我们一直非常关注华为的技术迭代,在他们还没有正式发布鸿蒙之前,我们就已经开始接触了,我们也希望不管是国产的芯片还是操作系统,都能拥有很好的生态土壤。”

 

在孟曦东看来,过去国产基础软件市场在生态建设方面存在短板,近几年在国家的重视和市场的关注下,越来越多的企业愿意加入到生态建设中去。此外,当前在基础软件领域标准化产品比较少,只有企业在标准化产品上持续投入,才能慢慢打磨成精品。而一旦陷入定制化需求研发中,就会变成按需投入人力,成本巨大。

写在最后

 

对于国内 AIOps 以及基础软件的未来发展,孟曦东表示很有信心。

 

在他看来,中国市场足够大,数据也足够丰富,而在国家战略和政策的支持下,传统制造业正向智能创造逐步发展,发展的过程中必然会涉及大量数据处理,而这也是 AI 技术的强项。


采访嘉宾:

 

孟曦东,博睿数据创始人兼 CTO。1998 年 8 月至 2000 年 3 月,任中国航空第 303 研究所软件工程师;2000 年 3 月至 2008 年 1 月,任北京千龙新闻网络传播有限责任公司技术总监;2008 年 2 月至 2016 年 2 月,任博睿数据首席技术官;自 2016 年 2 月至今,任博睿数据董事、副总经理。

2021-08-19 15:515454

评论

发布
暂无评论
发现更多内容

基于深度学习的探地雷达图像去杂波

小酌江风雪

QCN9274, QCN6274, QCN9224 and QCN6224-Do you know the specific requirements?

wifi6-yiyi

qcn9274 qcn6274

Python笔记三之闭包与装饰器

Hunter熊

Python 装饰器 闭包 装饰器类 装饰器参数

浅析RobotFramework工具的使用 | 京东物流技术团队

京东科技开发者

摸鱼摸出来的vue3+element-plus毒蘑菇后台管理:新标签页的实现。

23朵

Vue3 element-plus 后台管理

【并发编程】CountDownLatch详解与原理

小明Java问道之路

并发编程 AQS 后端 多线程 CountDownLatch

一款降压型开关模式转换器解决方案

芯动大师

2023 年总结与技术心得

Geek_231712

技术人的 2023 用QCon大会画上完美句号

IT蜗壳-Tango

Qcon

携手开发者探索AI PC无限可能,英特尔人工智能创新应用大赛启动

E科讯

软件开发

Geek_8da502

taobao.trades.sold.get( 查询卖家已卖出的交易数据)丨淘宝店铺订单接口

tbapi

淘宝API接口 淘宝店铺订单接口 天猫店铺订单接口 淘宝店铺交易接口 天猫店铺订单交易接口

TDengine 2023 年成绩单“曝光”,六大维度彰显卓越成就

TDengine

tdengine 时序数据库

2024-拒绝瞎忙,专注一件事

玄兴梦影

总结 质量 专注

华为云CCE集群健康中心:一个有专家运维经验的云原生可观测平台

华为云开发者联盟

云原生 后端 华为云 华为云开发者联盟

一步一步教你写kubernetes sidecar

华为云开发者联盟

开发 华为云 华为云开发者联盟

作为铭文跨链赛道龙头,SoBit 有何突出之处?

大瞿科技

大模型和深度学习的工作总结

6个核桃

InterSystems 数据库的存储过程存在哪里

HoneyMoose

CodeWhisperer:编码世界中的声音启迪者

亚马逊云科技 (Amazon Web Services)

人工智能 云上探索实验室 Amazon CodeWhisperer

软件开发者必读!2024年30大趋势提前曝光!

飞算JavaAI开发助手

英特尔锐炫显卡暴风成长:游戏领域大放光彩,AI应用表现抢眼

E科讯

记一次JSF异步调用引起的接口可用率降低 | 京东云技术团队

京东科技开发者

一个不会画画的我遇到AI绘画的时代

战场小包

AI AIGC AI绘画 Stable Diffusion controlnet

一文看懂指标管理难题:规范与效率如何兼得?

先锋IT

厦门钨业:智慧采购减少采购环节,构建高效产业链

用友BIP

智慧采购

2023:突破迷雾,追寻不惑之旅

BY林子

TDengine 技术培训班开课,来听“地震烈度速报与预警工程”成功案例

TDengine

tdengine 时序数据库

深入理解技术内容运营

小万哥

程序人生 软件工程 后端开发 技术写作 内容运营

一文搞懂Go GC演进史,讲的太细致了!

王中阳Go

Go golang 面试题 垃圾回收 GC

博睿数据CTO孟曦东:发挥AIOps价值需在数据质量下功夫_文化 & 方法_凌敏_InfoQ精选文章