写点什么

闭环管理下的银行监控系统改造

  • 2020-12-01
  • 本文字数:3143 字

    阅读完需:约 10 分钟

闭环管理下的银行监控系统改造

本文由 dbaplus 社群授权转载。


前言


近几年来,随着某城商银行数字化建设发展,银行系统引进了大数据及人工智能技术建设,同时银行监控管理需要整体优化管控策略和监测工具。


立足国内监控政策环境和自身运营实际,我行现提出“监-管-控”闭环监控系统改造策略,从监控系统、一体化运营管理平台、自动化控制三个方面系统推进,以期为银行监控管理的发展提供可供借鉴的发展思路。


大数据及人工智能技术在监控领域的应用使银行系统的监控面临更为重要的机遇和挑战,某城商银行服务主体对业务可用性要求不断提高,需要不断优化现有监控平台及监控策略,需要形成监控标准化体系。因此,监控管理亟待更新监控管理办法,制定相适应的管控策略。


一、某城商银行监控管理系统升级改造的背景


我行监控系统面临的主要问题有:


  • 银行监控系统整体来看,普遍存在不同监控平台监控策略、告警事件、数据归集分散的问题;

  • 监控工具方面,监控控工具展示的更多的是面向专家和技术人员使用的监控视图,对 ECC 一线整体监控可视化需求的实现不足;

  • 业务监控方面,自动化巡检及处置流程覆盖面积小,覆盖场景单一,缺乏有效的自动化开发管理流程。


由此,我行在现有问题的基础上积极探索解决方案,我行根据监控数据现实及服务需求制定了“监-管-控”一体化的闭环管理方案,以期为银行的监控系统改造提供切实可行的方案。


二、“监-管-控”闭环监控系统方案内容


1、监:监控系统


监控系统重点改进主要涉及监控信息采集及事件处理流程、应用系统的改造、基础设施故障的告警事件、应用和业务场景故障的应急响应等几个方面。具体监控内容如下:


  • 以 ITM 和 ZABBIX 为监控信息采集核心,通过 syslog 和 snmp 等标准协议,将存储、网络设备、安全防护等专有设备的监控事件统一归集管理,利用 Omnibus 形成标准的监控告警事件,与短信平台、ITIL 平台进行数据集成,形成标准的事件处理流程。

  • 对应用系统进行改造,形成格式化的交易流水日志,并通过大数据分析平台对应用日志进行统一采集、归档、展示分析;添加应用心跳监测日志,确保在不同交易特征时段都可实时掌握应用可用性数据,保障监控信息可靠、有效。

  • 针对基础设施故障,开发报警事件架构分布图,根据系统架构层级关系、告警事件及应用映射快速定位,并与自动化工具集成,形成联动,如:存储 IO 故障,应用缓慢的根本原因定位,采取容灾切换规避等。

  • 针对应用或业务场景故障,制作基于业务日志的实时故障分析展现视图,如:ATM 交易流水中,他代本报错,是全部他行报错,还是部分他行报错,处理的机制不同等。

  • 提供针对告警事件、业务日志的 AIOps 智能化分析功能,针对告警事件和日志异常进行告警提示,协助管理人员快速发现、定位故障。


2、管:一体化运维管理平台


一体化运维管理平台主要涉及的三个方面内容有:


  • 通过一体化运维管理平台实现针对监控对象及其构成组件的自动化登记,以及各组件的监控策略部署控制,并与监控工具集成,实现实时控制。

  • 形成监控对象—监控 KPI—监控策略—监控覆盖(实例化)的监控档案管理体系,针对监控事件和监控策略进行编码,形成结构化的告警事件管理和策略管理。

  • 与 CMDB 集成数据,并形成可由容灾管理平台调用的资产管理数据源,向各应用平台提供资产及监控策略管理数据。如下图所示:



一体化运维管理平台与各运维管理工具架构图


3、控:自动化控制


自动化控制主要从以下三个方面进行改造升级:


  • 针对各类报警事件及其相关场景,开发对应的巡检处置流程,目前我行已陆续完成整理了十六大类的判别场景手册。例如网银系统交易响应时间过长报警,配合中间件监控排查拥堵路径,定位拥堵路径后,关闭前端交易指示信号灯,重启应用进程,再打开前端交易指示信号灯,恢复交易路径正常运行,需工具实现固化,便于执行与管控。

  • 在现有流程的基础上开发标准化的容灾容错处置流程,形成标准化、自动化的容灾容错处置机制,开发自动化调度流程,针对多系统同时切换时的时序调度和逻辑关系进行线上化、自动化管理。

  • 一体化运维管理平台与自动化处置平台、容灾管理平台进行数据接口集成及调度任务集成功能,实现通过统一平台管理调度自动化任务,并将告警事件场景与对应的处置流程线上对接管理;同时能够针对巡检任务反馈数据展示巡检结果。


三、“监-管-控”闭环监控系统方案的优势


通过细分化的专业视图将抽象的应用系统逻辑关系、基础设施与业务系统的关联关系等可视化,在大量报警事件同时产生时,可以直观的定位故障影响范围和报警事件优先级情况,帮助值机人员明确故障处置的优先级,提高关键故障的解决效率。


监控策略自动化同步并线上管理可以最大程度上的保证数据的一致性和准确性,做到监控策略与监控对象匹配的实时更新,在保障监控对象来源(CMDB)数据准确的前提下,管理人员可以快速定位监控策略盲点,通过分析监控覆盖情况,有针对性的补充监控策略。


我们通过不断的监控告警场景-自动化处置任务的开发积累,可以做到针对发生过的故障快速定位、快速处置,保障了应用系统的业务可用性,提升客户体验。


通过一体化运维平台整合数据接口,作为监控体系内的数据中台,提升监控体系的数据治理能力,提高整体数据中心的数据一致性和管理效率;并通过一体化运维平台将整个“监-管-控”的三部分串联起来,形成一个有机的整体,打通监控管理的数据通道,实现“监-管-控”这一闭环管理流程。


由于事件统一管理,所以海量的、格式化的监控运维事件可以作为 AIOps 的数据源,进行针对 AIOps 新技术的开发和探索,通过聚类算法等 AI 技术,对海量监控运维事件进行分析,帮助运维人员快速准确的发现、分析和定位问题。


四、“监-管-控”闭环监控系统方案的未来趋势与展望


由于监控对象和监控策略的线上化管理,监控对象的来源主要是配置管理数据库(CMDB),监控策略的来源主要是监控系统自身,所以在监控策略实例化(监控对象与监控策略进行匹配)的过程中可以对双方的数据源进行二次复核,提高配置管理数据库的数据准确性,同时也可以增强监控策略的覆盖率;但该项工作可能需要定期的通过人工确认和复核,需要有与之相匹配的管理流程和人员定期跟进。


自动化处置流程的开发是一个场景与处置流程的积累过程,可以理解为运维监控体系的流程化知识库,将报警事件-场景-处置流程自动化的串联起来后,通过不断完善整个数据中心的故障处置知识库,将尽可能多的故障场景纳入到自动化可控流程中来,既可以节省数据中心的人力成本,也可以提高数据中心的故障处置效率。


现在各厂商或开源软件提供的 AIOps 工具有很多,但是在实施落地 AIOps 项目的时候,数据源往往成为项目的瓶颈所在,具有数据源分散难于采集,数据源类型过于离散难于分析等问题。在完成一体化运维管理平台的建设后,相当于具备了监控体系数据中台的功能,将分散的数据集中于此,并进行初步的格式化和标签化,为后续作为 AIOps 的数据源提供了环境基础。


五、结语


本文重点论述了“监-管-控”闭环监控系统方案提出的背景、主要内容、优势及未来发展趋势和展望。随着智能化、自动化的推进,我们认为“监-管-控”闭环监控系统方案能够优化整体系统性管理,实现自动化运行,进一步提高运维效率,降低运维风险,从而形成管理上的良性循环。


参考资料


  • 马海明、蒋伟林、廖俊杰.《广发银行集中监控平台:从面向资源到面向业务监控》.中国金融电脑.2013 年第 6 期.

  • 杨帆.《银行数据中心一体化监控系统的研究与实践》[J].中国金融电脑,2017(09):64-66.

  • 黄勇.《基于 Tivoli 的银行核心网络监控系统的设计与实现》[D]. 电子科技大学 2013


作者介绍


钱立镓,负责某城商银行监控系统管理和建设,具有丰富的监控系统建设、运维及项目管理经验。参与某城商银行统一监控平台、应用性能监控平台、自动化管理平台等多个运维管理平台架构设计及建设工作。对数据中心监控体系建设、自动化运维有深入研究和应用。


原文链接


闭环管理下的银行监控系统改造


2020-12-01 14:006214

评论

发布
暂无评论
发现更多内容

DiskCatalogMaker for mac(磁盘文件管理工具) v8.6.5中文注册版

理理

Mac磁盘管理 DiskCatalogMaker 注册版 DiskCatalogMaker 中文 DiskCatalogMaker 破解

互联网工程师Java面试八股文及答案整理(2023最新版)

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

模块七作业 - 王者荣耀商城异地多活架构设计

🐢先生

架构实战营

一种适用于大量租户大量角色的权限系统设计

Java你猿哥

Java ssm 权限管理

raw图像处理-RAW Power中文-mac破解软件

理理

mac软件下载 raw图像处理 RAW Power Mac破解版

熬了一个月肝完这份阿里架构师的Java面试手册,我从20K变成了30K

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

Nautilus Chain上首个DEX PoseiSwap即将开启IDO,潜力几何?

BlockChain先知

硬核!靠这套MySQL笔记轻松过了阿里二面,基础架构调优齐全了

做梦都在改BUG

Java MySQL 数据库

pd虚拟机专用windows系统镜像(m1/intel)一键安装版

理理

虚拟机 win 11镜像 win镜像 arallels Desktop

【1对1咨询】前端和后端,哪个更简单?转行程序员的捷径

程序员晚枫

前端 后端 转行

面试必备,阿里巴巴最新版《Java进阶学习+面试宝典》全新上线

架构师之道

Java 面试

浅析 Redis 数据结构 List 及其底层编码方式

Java你猿哥

Java redis List ssm

流批一体数据交换 etl-engine 融合查询语法

weigeonlyyou

数据迁移 ETL 云数据迁移 Kafka ETL 流批一体化

mac文件比较对比工具-Beyond Compare mac最新中文破解版

理理

Beyond Compare 4 Beyond Compare安装教程 Beyond Compare破解 mac文件对比工具

2023年互联网Java工程师高级面试八股文汇总(1260道题目附解析)

Java你猿哥

Java MySQL zookeeper JVM java面试

Nautilus Chain:独特且纯粹的创新型 Layer3

西柚子

面试官问:kafka为什么如此之快?

做梦都在改BUG

Java kafka 面试

Nautilus Chain:独特且纯粹的创新型 Layer3

股市老人

阿里大佬带你一周刷完Java面试八股文,比刷视频效果好多了!

Java你猿哥

Java 分布式 微服务 JVM ssm

程序员的私人助理:Amazon CodeWhisperer

申屠鹏会

AI Codec

阿里人都在死磕的全彩版"并发编程笔记",面试大厂必备!

做梦都在改BUG

Java 并发编程 高并发

绝了!阿里大佬的"Redis深度核心笔记",从基础到源码,全是精华

做梦都在改BUG

Java 数据库 redis 缓存

数字化转型应该如何去做?(4A架构篇)

数字随行

数字化转型

开源字节 考研集训营小程序

源字节1号

开源 软件开发 前端开发 后端开发 小程序开发

最新出炉!2023年Java初中高级面试1000问

采菊东篱下

Java 程序员 面试

阿里资深架构师总结的春招Java岗核心笔记,GitHub标星20k

做梦都在改BUG

Java java面试 Java八股文 Java面试题 Java面试八股文

炸了!力扣官方首发了这套1568页LeetCode算法刷题笔记(彩页版)

Java你猿哥

面试 算法 LeetCode 力扣 左程云

kafka消费者那些事儿

做梦都在改BUG

Java kafka 消费者

eMail Address Extractor for Mac(邮件地址提取软件)

Rose

苹果软件下载 eMail Address Extractor Mac邮件地址提取

Java 容器详解:使用与案例

小万哥

Java 程序员 容器 面试 后端

闭环管理下的银行监控系统改造_大数据_dbaplus社群_InfoQ精选文章