写点什么

荷兰银行的 SRE 实践

  • 2018-01-02
  • 本文字数:882 字

    阅读完需:约 3 分钟

来自荷兰国际集团(ING)的 Janna Brummel Robin van Zijll 在伦敦 Velocity 大会上分享了他们是如何通过 SRE 来提升网络银行可用性的。他们组建了一支 SRE 团队,为产品团队(在内部被称为 BizDevOps)提供有关可靠性的工具、咨询和培训。

ING 的 2017 年中指标表明,他们的个人网上银行系统的可用性降到了 96.84%,而其他系统(如个人移动银行)的可用性都在 99.99% 左右。造成这种局面的因素包括:产品团队缺乏监控;集中式的告警系统只在发生重大事件(比如系统崩溃)时才会发出告警,诊断问题需要很长时间(一个主要事故平均需要 69 分钟);缺少事后的事故评审和总结;缺少组件层面的可用性洞见(服务层面的反馈对产品团队来说不够直接)。

集中式的 SRE 团队只提供咨询(他们本身不会参与轮班待命),同时他们作为一个平台团队,也为产品团队提供工具和内部服务,帮助他们提升系统的可靠性。他们根据谷歌SRE 手册中定义的服务可靠性层级来计划和安排产品团队的任务优先级。

目前,SRE 团队主要覆盖金字塔的底下三层。在监控和事故响应方面,他们基于 Prometheus Grafana Mattermost ChatOps )构建了一些工具。他们帮助产品团队进行事故的事后诊断,并提供建议用于识别和修复可靠性问题。Brummel 和 van Zijll 分享了他们是如何花时间和精力扭转之前那种糟糕的局面的。他们建议在增加事故评审频率之前先要多花一些时间搞清楚状况,否则可能会事与愿违。

这些变更是以逐步按需的方式推出的,而不是采取“大爆炸”式的方式进行,让产品团队来决定是否采用他们提供的工具以及是否实践他们的建议。SRE 团队也在从由几个工程师组成的小团队发展成更大的社区(跨国的 SRE 团队,目前有三个 SRE 团队,分别在荷兰、西班牙和澳大利亚)。他们通过演示和内部讨论来发展 SRE 社区。

Brummel 和 van Zijll 关于 SRE 之旅的要点包括:在进行 SRE 招聘时更注重 SRE 思维;为避免出现优先级冲突,SRE 团队需要一个产品负责人;做好花大量时间向产品团队解释和推广 SRE 的准备;工具需要提供商用级别的可用性,而且要切实解决用户的痛点;考虑工具的可扩展性和所有权问题。

查看英文原文 How ING Bank Does SRE

2018-01-02 18:001854
用户头像

发布了 322 篇内容, 共 143.1 次阅读, 收获喜欢 148 次。

关注

评论

发布
暂无评论
发现更多内容

Alibaba Java面试题大揭秘,把这些知识点吃透去面试成功率高达100%

Java架构之路

Java 程序员 架构 面试 编程语言

Kubernetes 1.20发布,Release Logo变成一只猫

晓川

金九银十Android热点知识!架构师花费近一年时间整理出来的安卓核心知识,送大厂面经一份!

欢喜学安卓

程序员 面试 编程开发 Android进阶 Android开发

架构师训练营第一期 - 第十一周学习总结

卖猪肉的大叔

极客大学架构师训练营

DB-Engines 12月数据库排名: PostgreSQL拿下同期涨幅榜冠军,有望获得「2020年度数据库」荣誉?

华章IT

数据库 postgresql

话题讨论 | 图解一致性哈希算法全小区局域网最通俗易懂

程序员柠檬

性能之巅:定位和优化程序CPU、内存、IO瓶颈

华为云开发者联盟

性能 cpu 优化

TRX波场智能合约APP系统开发|TRX波场智能合约软件开发

系统开发

ChaosBlade x SkyWalking 微服务高可用实践

阿里巴巴云原生

微服务 云原生 监控 混沌工程 CloudNative

安卓开发不得不会!啃下这些Framework技术笔记,成功入职阿里

欢喜学安卓

android 程序员 编程开发 Android进阶

足不出户带你体验专业实验室,技术实现不在话下

华为云开发者联盟

体验 平台 实验

ZEGO即构科技荣获36氪【WISE2020中国新经济之王最具影响力企业】

ZEGO即构

《算法问题整理》​.pdf

田维常

浅谈ToB市场精细化运营

Linkflow

营销数字化 客户数据平台 CDP 精细化运营

《迅雷链精品课》第十一课:区块链常用共识算法介绍

迅雷链

区块链

大厂也在用的 6种 数据脱敏方案,严防泄露数据的 “内鬼”

程序员小富

Java 数据脱敏;

Nginx做web服务器linux内核参数优化

赖猫

c++ Linux 编程 后台开发 内核

六度空间软件系统开发|六度空间APP开发

系统开发

iOS逆向学习(arm64汇编入门)

ios 汇编

架构师训练营 1 期 -- 第十二周总结

曾彪彪

极客大学架构师训练营

在阿里巴巴内网找到的一份《Java核心宝典》简直太细了,如获至宝!

Java架构之路

Java 程序员 架构 面试 编程语言

mybatis快速入门,so easy啦

田维常

mybatis

Swift性能优化分析

ios swift

大厂iOS面试题全面讲解(上)

ios 面试

如何通过易观Argo,免费快速搭起精细化运营平台?

易观大数据

二层交换机和三层交换机之间VLAN的区别

linux命令:查询占用端口文件所在位置

梁小航航

Linux

刷完这两份pdf轻松拿下了蚂蚁金服、头条、小米等大厂的offer。

Java架构之路

Java 程序员 架构 面试 编程语言

3种缓存读写策略都不了解?面试很难让你通过啊兄弟!

Java架构师迁哥

你敢信?就是这个Netty的网络框架差点把我整疯了,哭jj

996小迁

Java 架构 面试 Netty

不为人知的网络编程(十):深入操作系统,从内核理解网络包的接收过程(Linux篇)

JackJiang

Linux 网络编程 TCP/IP

荷兰银行的SRE实践_DevOps & 平台工程_Manuel Pais_InfoQ精选文章