写点什么

ServiceMesh 如何帮助 SRE

  • 2021-04-20
  • 本文字数:1393 字

    阅读完需:约 5 分钟

ServiceMesh如何帮助SRE

要监控服务,而不是服务器或者容器什么的。


在之前的文章中,我们介绍了 SRE 应该围绕 SLO 展开运维工作,我们也知道了监控是获得 SLO 相关第一手数据的重要手段。SRE 所希望的监控,是直接从服务的关键路径上获取的状态信息;从运行服务的服务器或者容器的获得的状态信息在,只能间接说明服务的状态,这就是本文开头那句话的含义。

服务网格


对于一个基于 HTTP 的业务来说,直接拿到每个请求的返回代码,无疑是一个核心的监控措施。从架构上说,通过负载均衡器是可以非常客观的获得后端服务的这个监控指标的。



随着业务的逐渐复杂,通过负载均衡器来访问服务的不仅仅是最终客户,也可能是另一个服务:


随着流量的上升,我们希望负载均衡器也能一起水平扩展:


显然,负载均衡器的数量没有必要比服务 B 的数量还多,如果我们将负载均衡的功能直接集成到服务 B 中呢?


于是我们就获得了一个服务网格。


通过这种方式,我们还可以把下列功能集成进去:


  • 流量控制:对应负载均衡器的流量导向

  • 服务发现:让负载均衡器的后端更灵活,更易于管理

  • 链路跟踪:通过向流量中注入追踪信标,可以更容易的流量的来龙去脉进行跟踪并分析服务瓶颈

  • 安全与权限控制:通过对流量进行加密和注入权限控制属性,可以更方便地进行安全管理跟 Kubernetes 的 sidecar 技术结合,以上工作都可以在应用程序无感的前提下实现,这个就是著名的 Istio。

SRE 工作中的服务网格

监控数据收集和使用


在 Google Cloud 上,我们提供一个强大的运维工具 Stackdriver,而 Istio 则可以通过 Telemetry 的接口将 Istio 收集的各个组件的监控数据发送给 Stackdriver。


在 Stackdriver 中,可以直接查看服务的监控信息:


也可以查看服务组件之间的调用关系:


Stackdriver 的 SLO 监控面板可以直接提供与 SLO、错误预算相关的数据:


在 SLO 监控下完成新版本发布


在服务网格(或者更直接点,Istio)的帮助下,SRE 工程师可以通过直接更新 VirtualService 实现流量切换的办法完成升级。


因为切换流量的执行速度非常快,整个升级过程将会很平顺。


更进一步,我们可以使用流量分配功能,将部分流量引导到新版本:


由于只分配了部分流量到新版本,那么即使新版本有瑕疵,也只会消耗一小部分错误预算。我们可以重复这个过程:


在这个过程中,我们可以一边监控错误预算的消耗,一边控制流量的转移,并可以设定条件,如果错误预算的消耗超过某个阈值就回滚到初始状态:


这样,服务网格就能帮助 SRE 完成灰度发布。

Anthos 服务网格(ASM)产品


       ASM 作为谷歌云托管的服务网格解决方案产品,在开源的 Istio 的基础上,主要还提供了以下的能力:


控制平面托管

        托管的指标收集器:ASM 可以观察服务的运行状况和性能。依赖于 Sidecar 代理,拦截到工作负载的所有入站和出站 HTTP 流量,并将数据报告给 ASM。 从而,开发人员无需注入任何代码即可收集遥测指标数据。

        托管的 CA:ASM 提供 Google 全托管的 CA(Certificate authority)服务,可以帮助你配置 Service Mesh 的 CA 服务。

        Traffic Director:是一个用于服务网格的完全托管且生产可用的流量控制平面。 使用 Traffic Director,您可以轻松地在多个区域中的群集和 VM 实例之间部署 Global 负载平衡,减轻服务代理的运行状况检查的压力,以及配置复杂的流量控制策略。


开箱即用的服务管理能力

  • 日志,监控指标,链路追踪,SLO 指标监控告警等

  • 提供服务的认证与鉴权,策略管理等安全管控的能力

  • 服务路由,负载均衡,流量控制管理,限流,降级,故障注入和断路器等

2021-04-20 15:381370

评论

发布
暂无评论
发现更多内容

Nacos 在云原生架构下的演进

阿里巴巴云原生

阿里云 云原生 nacos

Jira 母公司全面停服 Server 产品,用户如何迁移至极狐GitLab

极狐GitLab

画眉(京东科技设计稿转代码平台)介绍

京东科技开发者

可观测实践丨如何利用 AI 算法解决告警配置三大难题?

阿里巴巴云原生

阿里云 云原生 可观测

文心一言 VS 讯飞星火 VS chatgpt (184)-- 算法导论13.5 1题

福大大架构师每日一题

福大大架构师每日一题

恭喜 Nacos 和 Sentinel 荣获 2023 开源创新榜“优秀开源项目”

阿里巴巴云原生

阿里云 云原生

DvD刻录软件DVD Cloner 2024 for Mac,现已支持最新的蓝光电影复制

Rose

mac软件下载 DVD克隆 DVD Cloner 2024下载 DVD Cloner 2024 Mac

基础架构即代码 | 亚马逊如何在现实生活中实践 DevOps

亚马逊云科技 (Amazon Web Services)

DevOps 微服务 架构设计 Amazon Lambda Amazon API Gateway

阿里云 ACK One Serverless Argo 助力深势科技构建高效任务平台

阿里巴巴云原生

阿里云 云原生

云消息队列 Kafka 版阿里云 SAE 2.0 正式商用:极简易用、百毫秒弹性效率,降本 40%生态谈第一期:无代码转储能力介绍

阿里巴巴云原生

阿里云 Serverless 云原生

秒速出图!体验 TensorRT 加速 Stable Diffusion 图像创作

阿里巴巴云原生

阿里云 云原生

【2024开年必备】最全面的Macbook/苹果电脑必备实用软件推荐

Rose

苹果软件 装机必备 Mac应用

【Mac&win】datagrip2023安装教程与激活码分享 亲测有效

Rose

ide DataGrip2023激活 DataGrip2023安装

顺丰科技LaaS实现产品化,数字生态战略提速

新消费日报

如何使用 Helm 在 K8s 上集成 Prometheus 和 Grafana|Part 3

SEAL安全

Kubernetes Helm Grafana

魔搭×函数计算:一键部署,缩短大模型选型到生产的距离

阿里巴巴云原生

阿里云 云原生

Linux 中常见目录的作用

emanjusaka

Linux 目录

推荐收藏 | 【Git实战专题】「必坑宝典」带你深入剖析Git操作指令下的奥秘原理和运作机制

洛神灬殇

Java git 原理分析 后端处理 2024年第十八篇文章

面试官:Redis持久化能关吗?怎么关?

王磊

Java 面试题

荣耀时刻 | 第七在线荣获艾媒2023中国企业服务年度企业

第七在线

弹性调度助力企业灵活应对业务变化,高效管理云上资源

阿里巴巴云原生

阿里云 云原生 弹性计算

一些无人不知的命名规范

小魏写代码

速看,速进。一起学习一起交流。

薛定谔的皮皮虾

texifier mac LaTeX编辑工具下载安装(原Texpad)

Rose

Mac软件 LaTeX 编辑器 Texpad Texifier激活码

十家传统企业数字化转型的心得体会:10大关键方面、拆解74 小点

天津汇柏科技有限公司

数字化转型

从内核的视角观测容器——SysOM 容器监控

阿里巴巴云原生

阿里云 云原生 容器服务

Rainbond v5.17 版本发布,统一管理离线镜像和私有仓库

北京好雨科技有限公司

Kubernetes 云原生 容器云 离线

为什么人工智能与软件测试的结合话题开始火爆

测试人

软件测试 自动化测试 测试开发

Spark SQL五大关联策略

京东科技开发者

XMind 2024思维导图:新增 310 张 AI 原创插画

Rose

XMind 2024思维导图 XMind 2024下载 XMind 2024中文 思维导图下载

ServiceMesh如何帮助SRE_服务革新_盛骏_InfoQ精选文章