小蚂蚁说:
支付宝红蓝 CP 又开始日常“互怼”啦!为了迎接年度技术“期末考试”周,技术蓝军每周都会组织突袭攻击“测验”,通过实战中发掘出来的脆弱点牵引红军进行能力升级。而红军的防控体系建设也在如火如荼地进行着,实时核对平台能够做到稳定的分钟级核对异常发现能力,还能提供业务快速接入的能力。
为提升全面风险意识,持续提升业务及技术架构的风险应对能力,从 2016 年开始,支付宝探索并建立了“红蓝对抗”机制,通过全栈级别的大型技术攻防演练,增强团队应急处理能力和系统防护水平。
支付宝技术蓝军正在布置“突袭”计划
“技术风险是所有蚂蚁技术人需要具备的最关键的能力”, 蚂蚁金服副 CTO 胡喜介绍,随着今年 12 月技术期末考周结束,支付宝技术团队正将风险从一个不确定的事变为确定性的事。
支付宝低调神秘部门 SRE 浮出水面
“红军重点防守,蓝军重点进攻,实现以演练促防御,以演练增强风险意识的长期目标”,蚂蚁金服技术风险部资深总监陈亮介绍,蓝军从属 SRE 部门,红军包括 SRE 及各业务部门技术团队。
SRE 全拼为 Site Reliability Engineer,是软件工程师和系统管理员的结合。据悉,目前全球只有少数几家顶级互联网公司拥有真正意义上的 SRE 团队,蚂蚁金服是其中之一。
支付宝这支技术蓝军的主要职能是寻找系统“软肋”,并随时攻击。陈亮介绍,除了每年 12 月第三个星期为年度技术“期末考试”周,日常中每周技术蓝军都会组织突袭攻击“测验”,通过实战中发掘出来的脆弱点牵引红军进行能力升级。
支付宝风险防控能力全面开放
除了每周“突袭”,每年还有期中考试和期末考试各一场。这样三年实践下来,支付宝的“红蓝对抗”演练已经沉淀为一整套成熟的风险防控体系,通过仿真环境模拟天灾人祸,以此考验技术架构的健壮性及技术人员的应急能力,从而全面地提升系统稳定,实现系统的高可靠性和高可用性。
“技术风险主要表现为天灾和人祸。天灾指的是,当出现台风、断网、火情等极端异常情况的时候,系统如何快速应对“。陈亮介绍,这有点类似于今年杭州云栖 ATEC 大会上,蚂蚁金服副 CTO 胡喜现场演练的异常断网情况下,“三地五中心”自动切换,保证支付服务不中断。人祸则是指因技术人员操作失误引发故障后,系统如何快速应。
据悉,这些技术风险相关的能力也通过蚂蚁金融科技官网(tech.antfin.com)正式对外开放。目前,包括容灾应急平台、全链路压测、资金安全监控、变更管控、巡检平台以及黑屏运维管控等产品。
本文转载自公众号蚂蚁金服科技(ID:Ant-Techfin)。
原文链接:
https://mp.weixin.qq.com/s/L761_W3yNvU3lNXtcJMsiQ
评论