在CNUTCon上海2018大会上,王亚雷讲师做了《高效智能故障处理中的系统工程》主题演讲,主要内容如下。
演讲简介:
复杂 IT 系统中故障的高效发现和排除问题的解决是一个复杂的系统工程,不能仅仅依赖一个单一的功能或算法。我们在实践中总结出一套帮助 AIOps 能够在企业中落地的算法、功能和支撑平台。报警压缩能够帮助我们在众多的重复和无效报警中减少报警数量,发现重复报警中的最重要的报警条,这个类似使用根因分析发现众多指标中造成突变的根源指标。报警压缩存在一个重要的检验因素:即不能错误压缩而造成漏报,我们在实践中作出了很多努力防止这种情况。异常的自动发现帮助我们从固定阈值报警中解放出来,异常算法需要根据强周期和弱周期分开计算。在高效发现问题的基础上,通过指标的关联分析和日志、事件的关联,帮助操作人员定位故障,使用知识库推荐故障的根源和解决方案。
主要内容:
报警的类型、报警压缩的困难和目标;
压缩算法和实践;
异常发现;
RCA 和知识库方案推荐。
听众受益:
如何做好落地的 AIOps 在故障分析中的实践,算法和平台工程;
探讨把算法落地的路径。
讲师介绍:
王亚雷
云兴维智 CEO
清华本科,美国德州大学奥斯汀分校硕士。十多年从事互联网服务平台,分布式 计算和数据存储的开发和管理工作。先后任职微软总部、eBay 和 Twitter 总部, 拥有超过二十年的企业运维管理和研发工作经验。
2016 年回国创立云兴维智(北京)科技有限公司,并担任 CEO。公司提供面向企业云平台和在线应用的运维大数据平台服务,致力于多维度运维数据的收集、 整合、呈现、报警和智能分析,打通现有的运维数据孤岛, 运用人工智能解决企业运维运营的困境,帮助企业进行高效和精准的运维。
完整演讲 PPT 下载链接:
https://cnutcon.infoq.cn/2018/shanghai/#schedule
评论