报名参加CloudWeGo黑客松,奖金直推双丰收! 了解详情
写点什么

高效智能故障处理中的系统工程

  • 2019-09-21
  • 本文字数:729 字

    阅读完需:约 2 分钟

高效智能故障处理中的系统工程

CNUTCon上海2018大会上,王亚雷讲师做了《高效智能故障处理中的系统工程》主题演讲,主要内容如下。


演讲简介


复杂 IT 系统中故障的高效发现和排除问题的解决是一个复杂的系统工程,不能仅仅依赖一个单一的功能或算法。我们在实践中总结出一套帮助 AIOps 能够在企业中落地的算法、功能和支撑平台。报警压缩能够帮助我们在众多的重复和无效报警中减少报警数量,发现重复报警中的最重要的报警条,这个类似使用根因分析发现众多指标中造成突变的根源指标。报警压缩存在一个重要的检验因素:即不能错误压缩而造成漏报,我们在实践中作出了很多努力防止这种情况。异常的自动发现帮助我们从固定阈值报警中解放出来,异常算法需要根据强周期和弱周期分开计算。在高效发现问题的基础上,通过指标的关联分析和日志、事件的关联,帮助操作人员定位故障,使用知识库推荐故障的根源和解决方案。


主要内容:


  1. 报警的类型、报警压缩的困难和目标;

  2. 压缩算法和实践;

  3. 异常发现;

  4. RCA 和知识库方案推荐。


听众受益:


  1. 如何做好落地的 AIOps 在故障分析中的实践,算法和平台工程;

  2. 探讨把算法落地的路径。


讲师介绍


王亚雷


云兴维智 CEO


清华本科,美国德州大学奥斯汀分校硕士。十多年从事互联网服务平台,分布式 计算和数据存储的开发和管理工作。先后任职微软总部、eBay 和 Twitter 总部, 拥有超过二十年的企业运维管理和研发工作经验。


2016 年回国创立云兴维智(北京)科技有限公司,并担任 CEO。公司提供面向企业云平台和在线应用的运维大数据平台服务,致力于多维度运维数据的收集、 整合、呈现、报警和智能分析,打通现有的运维数据孤岛, 运用人工智能解决企业运维运营的困境,帮助企业进行高效和精准的运维。












完整演讲 PPT 下载链接


https://cnutcon.infoq.cn/2018/shanghai/#schedule


2019-09-21 15:20963

评论

发布
暂无评论
发现更多内容

Java中List排序的3种方法!

王磊

Java

2022年一站式服务器管理软件就用行云管家!

行云管家

云计算 服务器 IT运维 服务器管理

智慧公安重点人员管控系统开发建设方案

a13823115807

智慧公安

给弟弟的信第18封|除了自己,你谁也改变不了

大菠萝

28天写作

Linux之nl命令

入门小站

Linux

南瓜电影CTO早晨6点接到紧急电话,被告知“系统压力大”,看其如何化解危机

大咖说

Serverless 技术 数智化

Amazon Aurora 并行查询——加速分析处理的利器

亚马逊云科技 (Amazon Web Services)

Data

智慧警务系统建设方案,公安重点人员动态管控系统开发

电微13828808271

中科柏诚布局信创产业,护航信创产品安全

联营汇聚

linux学习全套资料:结构化命令case-for-while

侠盗安全

Linux 运维 运维工程师 云计算架构师

企业如何正确使用CRM系统?

低代码小观

低代码 企业管理 CRM CRM系统 企业管理软件

在线JSON转ClickHouse数据表工具

入门小站

工具

质量基础设施一站式服务线上平台助力高质量发展

电微13828808271

公安合成作战指挥系统开发,情指勤舆一体化平台建设

电微13828808271

问诊把脉“实景三维业务发展瓶颈在哪里”和“御医良方”

焱融科技

云计算 云原生 GIS 高性能 文件存储

盘点 2021 征文大赛|记录你的年度闪光时刻!

InfoQ写作社区官方

盘点2021 热门活动

恒源云(GPUSHARE)_云GPU服务器如何使用Spyder?

恒源云

人工智能 #python 算力加速

实现更高性能,一起探索Amazon Redshift高级查询加速器

亚马逊云科技 (Amazon Web Services)

Data

Java 基础之详解 Java IO

编程江湖

JAVA开发

【云堡垒机】市面上部分云堡垒机厂商大汇总

行云管家

云计算 网络安全 堡垒机 IT运维 IT资产

手把手教你使用 Timestream 实现物联网时序数据存储和分析!

亚马逊云科技 (Amazon Web Services)

Data

Atlassian 被 Forrester Wave 评选为企业服务管理的领导者!

Atlassian

Atlassian Jira 协作 ITSM Confluence

打气球

Tiger

28天写作

Linux之nl命令

入门小站

Linux

CameraX入门笔记

Changing Lin

12月日更

架构训练营 -- 模块三

LJK

架构训练营

Linux一学就会--Shell教程 || Shell的基础用法(详细)

学神来啦

Linux centos 运维 Shell linux云计算

阿联酋区块链大会“DCS 2021 ” 闭幕 Hoo虎符成会展焦点

区块链前沿News

DCS 虎符 Hoo 虎符交易所 DCS 2021

IP创作

张老蔫

28天写作

微前端技术在游戏平台后台系统的实践

bilibili游戏技术

游戏

TDinsight——基于Grafana的TDengine零依赖监控解决方案

TDengine

数据库 tdengine 时序数据库 后端技术

高效智能故障处理中的系统工程_CNUTCon_王亚雷_InfoQ精选文章