早在四千多年前的古巴比伦时期,保险就已经出现在人类的历史长河中,著名的《汉谟拉比法典》里就有着关于「保险」的条款。保险一路发展至今,不管在个人风险管理、企业经济核算,还是在保障社会稳定、经济发展及对外贸易中,都发挥了巨大的作用。正因为如此,保险行业更需要不断加强完善综合监管评价体系,保障保险业务的稳定运营管理。
支撑保险行业发展的各类业务系统纷繁复杂,资金系统、ERP 系统、保单交付管理平台、行业报送系统、电商、消息中心等不一而足。在这样的情况下,统一、实时性的管理需求与日俱增,尤其在业务系统云化后,传统系统运维管理方式已远远无法满足需求,不少行业领头羊纷纷进入 ITOA 领域,利用大数据保障业务系统的可用性,并进一步挖掘运维数据价值。
关键词解析:ITOA + SIEM + UEBA + AI
某保险集团是中国四大国有金融保险集团之一,旗下管理数十家子公司,业务范围覆盖了财产保险、人寿保险、养老产业投资、资产管理、证券经纪等多个领域。集团搭建了综合金融服务平台框架,采用两地三中心容灾建设方案,整合并集中管理集团内保险经营服务、客户数据管理服务、IT、呼叫中心等各类资源。数据中心共管理上万台物理设备与虚拟节点,内部日志源众多,日志数据种类多样,分析场景复杂,需要建立统一的日志大数据平台满足基础架构和应用的可追溯性和审计要求,还需要支持应用集成和流程集成、运维监控,安全审计及业务数据分析等内部场景。而在这一过程中,出现了诸多亟待解决的问题:
多平台分散管理,故障定位难度大不及时
多系统平台分散管理,运维人员需要对海量的告警信息、系统操作日志、性能日志等进行综合分析,需要多个运维人员协同处理,依赖运维经验进行诊断分析。
被动式故障监控
目前集群故障的发现主要是以被动方式为主,通过监控设备、组件、业务等 KPI 的变化告警,故障发生之后甚至产品大量投诉后才开始进行故障排查,且传统的静态阈值监控很容易出现误报漏报的问题,监控视野局限。
针对以上需求和现状,在业务种类不断丰富的复杂 IT 环境下,应用 Pandora 来全面开展 IT 运维分析就显得尤为重要。
Pandora 日志平台凭借大数据分析能力,对机器数据进行全面采集,包括资源层、架构层与操作层三层日志信息,对系统整体运行情况进行监控,使用实时和历史数据分析定位并解决问题,缩短传统系统故障平均修复时间,并发现传统监控无法检测到的问题;实现数据运营可视化,借助机器学习算法实现业务预测、智能辅助决策,从而优化集团数据中心的精细化管理、大大提升运维效率及整体系统安全防护能力,最终实现数据赋能,减少向客户提供产品和服务时发生的延迟。
Pandora 解决方案优势
日志统一标准化管理
采集系统运行过程中资源层、架构层与操作层三层日志信息,包括服务器日志、操作系统日志、中间件日志、数据库日志、网络日志、存储日志及业务应用日志,对各类日志进行标准化解析。
日志实时及离线检索分析实现安全巡检
使用 Pandora 日志管理平台,能对各类型日志进行实时和离线检索分析,实现自动安全巡检、攻击溯源以及攻击预警,发现传统安全设备没有发现或阻断的安全威胁,避免对业务造成影响。通过用户行为日志实现对内网各环节的用户行为进行安全行为审计,对业务日志分析进行业务逻辑告警以及用户行为分析、数据挖掘等。
灵活告警规则配置,实现全生命周期管理
Pandora 日志管理平台可对系统日志进行实时解析,利用 SPL 进行多维分析,并配置多层告警规则。针对数据库综合监控;服务器进程合规分析;系统操作审计等运维业务分析场景,进行实时统计监控、故障判断、异常预警,另外通过补充告警规则,可提前发现问题并及时解决。
数据运营分析可视化平台:风险可知、事件可控、态势可见、效率提升
Pandora 日志大数据平台支持外接数据可视化模块,提供更加生动、功能丰富的可视化大屏展示,从网络、系统运行状态、数据库、中间件等几个方面进行监控,让分析结果、发现的问题和风险第一时间通过大屏清晰展现,协助运维人员排查故障来源,实现态势感知,洞悉系统风险,提升对系统问题的发现识别、理解分析、响应处置能力,助力决策与行动,形成了整体 IT 运维的高效闭环解决方案。
结合 AIOPS 技术
基于已有的运维数据(日志、监控信息、应用信息等),Pandora 日志大数据平台可通过机器学习的方式来进一步解决自动化运维没办法解决的问题。日志数据结合 AIOps 技术,构建一个集成的运维分析平台:通过服务器日志、中间件日志、数据库日志,检测系统状态;通过网络流量日志,形成系统逻辑架构,分析架构缺陷;将系统情况通过可视化图表清楚的展现出来,辅助运维人员保障系统正常运行。比如:通过学习 CPU 使用率,内存使用量,磁盘容量,磁盘 IO 的历史曲线,预测相关硬件设施后续负载情况,为后续硬件扩容升级提供依据;通过中间件、应用系统日志等学习预测系统响应时间等运行状态。
对接运维管理平台,实现安全应急响应的自动化管理
Pandora 日志大数据平台可对接客户 CMDB 平台,实现资源统一管控:通过 CMDB API 接口获取所需资源对应的标签如:集群名称/业务名称,与 Pandora 采集器中的标签进行同步。将采集器安装及操作脚本发布到 CMDB 的任务列表,实现通过 CMDB 进行统一管控。
持续业务扩展
随着 Pandora 日志大数据平台在保险行业 IT 运维分析场景的不断深入和知识沉淀,我们会设计并建设完成基于事件的运维管理解决方案,丰富数据源增加分析维度,建立安全运维知识库主动发现并避免问题,丰富机器学习算法模型,用于异常网络流量检测、用户可疑行为检测;积累形成故障知识图谱,综合多种关系型数据对全网资产实现可视化的拓扑管理,使用图算法挖掘架构风险,寻找网络中充裕资源进行架构优化,使用架构图进行业务异常预警,实现安全攻击链的智能追溯;接入第三方威胁情报、漏洞扫描数据;最终落地形成金融行业数据分析应用,保障保险行业业务稳定稳固运行。
本文转载自公众号七牛云(ID:qiniutek)。
原文链接:
https://mp.weixin.qq.com/s/IEn6ALRO0LC5SFsXL18Gsg
评论