写点什么

AI 和云技术将会给运维带来哪些变化?

  • 2019-11-05
  • 本文字数:2154 字

    阅读完需:约 7 分钟

AI和云技术将会给运维带来哪些变化?

根据 IDC 研究:2019 年全球 ICT 市场规模已经达到 5.1 万亿美元,其中数字化转型已经成为了企业的核心战略。数字化转型推动第三平台技术进入到第二篇章(第三平台技术是指以云、大数据和移动社交为核心的技术)。



IDC 中国企业级研究部助理副总裁周震刚


对企业来说,数字化转型意味着决策模式创新、运营模式创新、生产模式创新、产品服务创新和盈利模式创新。如果具体到数字化应用,IDC 中国企业级研究部助理副总裁周震刚表示:“2019 年最重要的数字化应用包括:使用微服务和容器的云平台上的敏捷应用架构;基于数据管理、认知、人工智能和机器学习的智能核心;基于云的应用程序接口策略,协调整个生态系统中的数据交换;完全支持面向客户和生态系统的业务模式的新客户体验技术。”


无论应用发展产生了哪些开发和部署的新趋势,都需要运维和监控模式去管理。20 年前的 PC 时代,应用数量可能只有成千上万个,可以用手工和人力管理,而到了移动互联网时代,应用数量暴增至上百万、上千万之后,手工管理变得不现实了,更多新的运维工具开始出现,例如,利用人工智能技术来提前规划 IT 资源、提前分析故障、预测未来趋势等等。本文就从 Dynatrace 来看看新时代的运维监控工具到底有哪些变化。

AI 如何应用在运维领域?


Dynatrace 全球销售总裁 Stephen Pace


说起 AI、云与运维的关系,Dynatrace 全球销售总裁 Stephen Pace 曾在采访中表示:“现在的应用交付主要通过云的方式来进行,特别是在这个数据爆炸的时代,面对错综复杂的数据关系,AI 正在迅速成为唯一能够为企业提供所需支持的解决方案。Dynatrace 的整个产品线以 AI 为核心,为企业提供能判断因果关系的分析,在复杂的云环境下,梳理因果关系、找到根因,迅速定位问题发生的位置,带来决策 AI 的效果。”


AI 在运维领域中有很多种不同情况的应用场景,Dynatrace 全球技术副总裁 Chuck Miller 为我们讲述了 AI 在各个阶段的应用:



Dynatrace 全球技术副总裁 Chuck Miller


  • 数据收集阶段:想要应用 AI 或者自动化,很重要的一点是要拥有高保真的数据,那么这些数据从何而来呢?OneAgent 技术可以在应用环境中自动地发现需要观测、监控的数据,包括网络、系统、容器以及微服务中的数据,收集完之后还可以把相关内容呈现出来。

  • 数据处理阶段:收集到这些数据之后,AI 引擎就可以深度处理数据。Dynatrace 系统中还包括机器学习 Built-in(内置)、自动 Baselining(基线),结合 AI 引擎就可以分析得出某些结论。

  • 根因分析:当有异常问题发生的时候,AI 引擎会自动去追踪用户的操作路径,也就是追踪服务访问和调用的路径,通过对各个不同层面监控对象的数据分析和关联,比如主机、进程、服务以及应用的数据关联,来自动分析出根因。


与传统 AI 引擎不同,Dynatrace 的 AI 引擎是为了特定目的而构建的,可以做到实时因果关系输出。传统 AI 引擎实现的是关联关系(Correlation)方式的分析,其缺点是无法实时输出,需要花费时间去学习才能看到想要的数据,很多客户可能无法接受这一缺点。


数据在 Dynatrace 平台中的流转其实是个闭环,平台将数据提供给智能化(或自动化)工具,该工具根据数据做出反应操作之后,会把结果返回给平台,得到新数据之后,可能又会触发新的动作。以此循环往复,AI 引擎的判断会越来越准确,运维的动作也会越来越精确。

云平台下的运维技术如何发展?

企业上云已经成为了一种趋势,甚至有些企业可能上的不止一朵云,根据 Kentik 公司的一项调查表明,如今 40%的组织认为自己是多云用户,他们的组织拥有两个或多个云服务提供商提供的云服务。那么上云之后的企业会面临哪些挑战?又会如何影响运维呢?


上云之后,企业往往会遇到以下挑战:


  • 环境复杂:公有云、私有云和混合云难以互通;

  • 大规模:企业上云以后,应用和数据规模都会暴增;

  • 应用动态变化:容器和微服务的技术都是动态变化的;

  • 部署频率提升:采用 DevOps 提升了软件部署和交付的效率;


Dynatrace 在服务用户的过程中,也同样发现了用户不愿意只投资单一云环境,而更倾向采用多云平台,这就要求应用监控方案可以实现跨云的自动化服务。Dynatrace 引入了自主云管理概念(Autonomous Cloud Management, ACM),以期解决 IT 复杂性难题。但 ACM 并不是一套做法就可以适用于所有用户,而是每个客户都有自己独特的部分。


实现自主云管理的第一步就是把监控自动化,将监控变成一个自主服务(self-serving)环境。其次,就是要和客户沟通流程,这也是花费时间最多的部分。最后,Dynatrace 有很多合作伙伴,他们会为 ACM 的实现补充很多功能和技术。


其实,企业上云并不单纯是把计算放在云上,有一个部分很重要,就是如何帮助企业使整个应用开发过程做得更快更好,如何优化交互,如何通过云更快速地实现回应的链路(feedback loop)。


据了解,金融行业是对 ACM 接受程度非常高的行业之一,大多数实施 ACM 的客户来自银行和保险公司。Chuck Miller 举了美国 KeyBank 银行的案例:以前 KeyBank 开发人员从写完代码到生产(包括中间过程的测试和挑战),整个过程需要三周左右,而现在从整个代码的开发到生产的时间可以“天”为单位来计算。Dynatrace 帮助他们解决了两个问题:将定位和解决问题的时间从几天缩短到几个小时。另外,正如用户希望每十分钟可以发布一个新版本那样,目前 Dynatrace 对部分问题的解决已经能达到这一标准。


2019-11-05 10:221841
用户头像

发布了 497 篇内容, 共 327.0 次阅读, 收获喜欢 1923 次。

关注

评论 1 条评论

发布
用户头像
666
2019-11-22 10:16
回复
没有更多了
发现更多内容

大型互联网应用系统技术和手段

纯纯

架构师训练营 -week04 学习总结

GunShotPanda

奔向 10W+ 的第二次 update

赵新龙

写作平台 B站 Quora

第四周学习总结

慵秋

week04作业

seki

案例讲解,设计模式定义

秤须苑

架构师训练营第 4 周学习总结

Season

高可用 分布式系统 高性能 极客大学架构师训练营

架构师训练营0期第四周 - 学习总结

lei Shi

大型互联网技术架构体系

dony.zhang

【极客大学】【架构师训练营】【第四周】学习总结

NieXY

极客大学架构师训练营

大型互联网应用系统使用技术方案和手段

wei

第四周学习总结

天之彼方

一个典型大型互联网应用系统:从问题到技术方案和手段

走过路过飞过

眼睛一闭一睁,2020年上半年就过去了

赵新龙

2020 年度计划

【架构师训练营 - 作业 -4】大型互联网架构

Andy

软件架构发展史

Jeannette

架构师训练营第四课总结

曾祥斌

第四周作业

安阳

【架构师训练营 - 总结4】

Andy

架构师训练营 第四周 总结 互联网系统架构演进

CR

极客大学架构师训练营

架构师训练营 第四周 作业

亮灯

week04总结

seki

想解耦必分层

菜根老谭

程序员 架构思维 分层思维

架构师训练营第四周作业

Geek_2dfa9a

架构师训练营 -week04 作业

GunShotPanda

第四周总结

lwy

极客大学架构师训练营

【架构课总结 - 第四周】常见架构模式和技术

Nelson

架构总结

【第四周】命题作业——大型互联网系统的技术解决方案和手段

三尾鱼

极客大学架构师训练营

架构师训练营第四周作业

lwy

极客大学架构师训练营

架构师训练营第4期作业/学习总结

JUN

架构师训练营第四周总结

Geek_2dfa9a

AI和云技术将会给运维带来哪些变化?_服务革新_田晓旭_InfoQ精选文章