写点什么

复杂多云环境下, 七牛云日志管理在某大型银行的成功实践

  • 2019-10-10
  • 本文字数:2398 字

    阅读完需:约 8 分钟

复杂多云环境下,七牛云日志管理在某大型银行的成功实践

银行作为国民经济的重要组成部门,具有信息高度敏感,数据量巨大的特性。同时银行作为信用中介,还必须以防范风险为前提。


七牛云智能日志管理平台的客户银行,作为国内市值前五的大型银行,用户体验极佳,服务贴心高效,信用卡交易额国内领先。但在业务扩张,尤其是自 2017 年底新兴互联网业务爆发式增长后,客户银行的运维部门也承担着越来越重的压力。


相信客户银行在复杂多云环境下的日志管理实践,也对国内同类企业有着一定的借鉴意义,今天特此做使用七牛云 Pandora 智能日志管理系统在多云环境管理场景下的探索和实践分享。

项目难点

-混合云部署方式,存在多个集群部署在不同环境、不同系统存在异构或者日志来源不同的情况


-需要管理的业务系统超上千个,多套云上环境


-必须支持复杂查询和运维排障;并做到日志的实时查询、准实时汇总统计及全量数据监控


-需要对接已有的行内账号体系和告警平台


-客户希望将运维部门由成本部门转化为利润部门

项目实施前

这家银行早期使用 ELK 自建了一套日志管理平台,初期运营良好。但自从 2017 年底,银行的新兴互联网业务开始呈现爆发式增长,导致系统日志数量也随之剧增,每日新增日志数量超过几十 T。各种新的业务系统以极快速度开发上线,同时相关业务需求也在增加,给运维带来了机器资源管理及系统管理的巨大压力,日志系统的压力也越来越大。


随着管理系统的增加,开发人员的功能需求也随之增加,希望在日志系统上新增各种查询和复杂统计分析。例如:


-及时定位业务系统异常,限定各类条件的百亿级日志秒级故障查询


-根据不同条件,进行业务情况的分钟级汇总统计


-保障各业务部门数据安全访问和资源分配问题需要的灵活细粒度的多租户管控


等等


自建的 ELK 系统面对这样的情况,需要企业投入更大的运维团队来做维护,并且现有技术能力难以解决 ELK 性能及稳定性问题,短期内无法跟上暴增的业务发展需求。同时,随着数据量不断增长,日志的实时查询、准实时汇总统计及全量数据监控成为了一个难点和瓶颈,一直没有找到合适的解决方式。


面对这样的情况,客户银行急需构建一个具有技术前瞻性的平台良好对接已有的行内账号体系和告警平台。综合考虑之后,决定采购七牛云 Pandora 智能日志管理平台来应对互联网业务突增的多云管理。

引入 Pandora

客户银行首先将云上互联网业务的应用日志打入 Pandora 平台,借助平台脚本执行功能实现开机时数据采集 agent 的自动部署,实时采集了包括行内费用 Top5 的项目日志和机器性能监控指标数据,通过该类日志提供复杂查询分析、问题定位和 metric 的实时监控分析及告警功能,并无缝对接已有的行内账号体系和告警平台。


由于 Pandora 对于权限的控制高度灵活及精细化,可以支撑银行对于资源灵活分配及数据安全的基本需求。同时新增了实时状态监控和告警全生命周期管理,如果出现异常会通过 http、邮件、微信、短信等方式告警。


确定方案后,迅速调整了项目架构,该多云环境下的统一日志管理平台架构如下所示:



图 1:系统架构图


在初步几个重点云上互联网应用项目实施成功后,银行决定加深对于 Pandora 的使用。决定将各种网络设备、存储日志及现有银行业务系统日志均汇总到 Pandora 中,并根据七牛云日志产品团队的建议和协助部署各类监控。为更好的洞察日志中的异常,第一时间发现异常日志之后,七牛云日志平台 Pandora 会将异常告警通过 http 接口回调给到行内告警和运维自愈模块,收到告警信息后,自愈系统会根据不同告警内容对应的愈合逻辑做对应的异常处理,保证第一时间恢复应用的可用性。

更大规模使用

客户银行在接下去的 6 个月内将所有现有的互联网业务迁移到 Pandora,并完成了与行内账号体系的完整对接。


本阶段主要以缩减成本为主题,更好的为采购部、审计部、分行上云提供审计数据输出,整合混合云账单相关费用信息、初期采集的相关监控负载信息(包括 服务器、数据库、缓存系统等产品的监控、计量信息)和以项目为单位的业务量,提供一份完善可供审计的费用-资源-业务量报表。针对账号操作类,使用 audit trail 实现账号的安全审计,建立一个完善的安全审计策略。


同时,由于 Pandora 的性能可靠和易用性(可视化操作界面),银行目前已将 Pandora 作为一个很重要的日志管理方案,在项目启动时会要求项目日志接入 Pandora。


目前,客户银行部署集群共几十个数据节点,接入上百个业务应用,管理上千台服务器性能指标,接入 Pandora 的日志数据日增量已达几十 T 并持续增长,数据量过千亿,支撑了每天过亿的访问,并提供千万级别的数据监控服务,高峰 QPS 过万。


目前 Pandora 平台在客户银行内部运行非常稳健,Pandora 经过公有云大规模集群长期服务验证,在用户数据量增长时,集群的性能可以随之线性增长,平台自带高可用和动态扩容。业务侧的开发人员在使用 Pandora 平台的过程中学习成本极低,同时自带应用市场提供很多开箱即用级应用。在持续一年多的使用中,Pandora 团队一直与客户银行保持紧密的沟通和交流,将平台新研发特性同步在客户侧进行更新迭代,互相之间也频繁紧密的进行技术和使用方面的沟通,便于 Pandora 更好的满足用户的业务需求以及降低用户使用的心智负担。

未来展望

当业务日志逐步完成平台对接后,客户银行从 2019 年开始推动利用 Pandora 实现数据智能的目标。本阶段需要充分挖掘并发挥数据价值,通过现有日志平台的数据实现异常智能预警及数据智能分类,同时针对安全合规的需求,Pandora 可以利用数据智能帮助客户银行定义安全事件、制定合规策略等。


预计 2019 年底,Pandora 集群将会实现异地多中心部署,共计接入机器上万台,这将给开发和运维带来了一定的挑战。Pandora 同时提供多集群的便捷管理方案以及支持基于 K8S 来自动管理和调度实例。可以预见,随着客户银行的深入使用,Pandora 的实例数和接入机器数会继续以较快的速度增长和扩容。


本文转载自公众号七牛云(ID:qiniutek)。


原文链接:


https://mp.weixin.qq.com/s/nkDCa4TtYL30lfFGcMM2fg


2019-10-10 18:05841

评论

发布
暂无评论
发现更多内容

体验稳定强大的数据处理神器——Microsoft Excel LTSC 2021

Rose

Excel 数据分析 Excel 2021破解版 Excel 2021永久版 Excel 许可证

OpenHarmony napi开发-公开课

Laval小助手

最新版Spring Security 中的路径匹配方案!

江南一点雨

Java spring security

DBAIOps关键SQL监控功能

DBAIops社区

数据库 运维 监控

通义灵码牵手阿里云函数计算 FC ,打造智能编码新体验

阿里云云效

阿里云 云原生 通义灵码

macos big sur 软件icons图标大全(新增至2719枚大苏尔风格图标)

Rose

icons图标大全 macos big sur 软件

Datax助力轻松迁移SQLServer数据至GreatSQL

GreatSQL

DBAIOps生态概述

DBAIops社区

数据库 运维

手把手教你实现 OceanBase 数据到 Apache Doris 的便捷迁移|实用指南

SelectDB

数据库 大数据 数据分析 数据同步 数据迁移

国密数据加密在堡垒机上的应用有哪些?

行云管家

信息安全 数据加密 堡垒机 国密

轻松复现一张AI图片

程序那些事

人工智能 程序那些事 4月月更 openai

阿里巴巴1688商品API实战:批量抓取价格、标题、图片及库存数据

技术冰糖葫芦

api 货币化 API 接口 pinduoduo API

库洛游戏宣布《战双帕弥什》将启动鸿蒙原生应用开发

最新动态

京东广告研发——AIGC在京东广告创意的技术应用

京东科技开发者

利用飞桨与文心大模型重塑大宗商品数字供应链

百度开发者中心

深度学习 大模型

短视频评论提取工具软件介绍|评论采集下载爬取

Geek_16d138

润和软件成功举办2023-2024年openEuler技术委员会会议

科技热闻

mac电脑如何使用Linux系统?PD虚拟机安装Linux系统详细教程

Rose

Linux系统 mac电脑 pd虚拟机 19

ChatGPT助力测试领域!探索人工智能编写测试用例的新前景

测试人

软件测试

Monibuca v5 实现零拷贝 BufReader

不卡科技

Go 性能优化 流媒体

CorelDRAW 2024(cdr2024注册机)最新图文安装教程

Rose

CorelDRAW2024下载 CorelDRAW破解补丁 CorelDRAW中文版安装 cdr2024安装教程

实践展示openEuler部署Kubernetes 1.29.4版本集群

华为云开发者联盟

Kubernetes 华为云 集群 华为云开发者联盟 企业号2024年4月PK榜

低代码技术与仓储管理的新纪元:革命性的供应链变革

天津汇柏科技有限公司

低代码 仓储系统

ChatGPT助力测试领域!探索人工智能编写测试用例的新前景

测吧(北京)科技有限公司

测试

文心大模型“你说我画”:PaddleHub与PaddleSpeech的协同实践

百度开发者中心

人工智能 NLP 大模型 大模型

根据Nginx Ingress指标对指定后端进行HPA

华为云开发者联盟

nginx 开发 华为云 华为云开发者联盟 企业号2024年4月PK榜

PIRF-395

EchoZhou

English

入职3年-我如何做一名AI产品经理

京东科技开发者

实战剖析-vue项目首屏加载时长优化

京东科技开发者

通义灵码牵手阿里云函数计算 FC ,打造智能编码新体验

阿里巴巴云原生

阿里云 云原生 函数计算 通义灵码

复杂多云环境下,七牛云日志管理在某大型银行的成功实践_服务革新_七牛云_InfoQ精选文章