HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

降本 40%!Redis 多租户集群的容器化实践

  • 2021-02-19
  • 本文字数:7158 字

    阅读完需:约 23 分钟

降本40%!Redis多租户集群的容器化实践

一、为什么需要 Redis 多租户平台

1、Redis 集群最初的样子

在公司发展初期,公司只有虚机环境,没有容器。Redis 集群分两种,一种是独享集群,即一个集群里只有一个应用;另一种是混部的集群,即多个应用共享同一个集群。



现在看他们各自的优缺点:


1)独享部署

优点:

  • 稳定性高,相比混部集群,不会被其他应用影响。


缺点:

  • 资源利用率低,不同应用无法共享 Redis 服务器资源:虚机最低配 2C4G,且对 Redis Cluster 集群模式 1 个 Redis 集群至少需要 3 台服务器,对于访问量少的集群,会浪费成本;

  • Redis 集群数多,运维成本高:虚机环境下,集群的创建、销毁、扩容、缩容、容灾等,都依赖人工运维,运维工作量跟集群数成正比。


2)混合部署

优点:

  • 相比独享集群,资源利用率更高;

  • 相比独享集群,集群数少,运维成本低。


缺点:

  • 不同应用可能互相影响;

  • 不用应用存在 key 重复的风险。


对于初创型公司,如果也有同样的 Case,可以借鉴我接下来讲的方案优化,降本提效、提升稳定性。


2、Redis 多租户平台建设的初衷

我们建设 Redis 多租户平台,就是为了保留上面提到的独享集群和混部集群的优点,避免他们的不足。


建设多租户平台的目的:

  • 提升资源利用率;

  • 降低运维成本;

  • 确保不同租户间互不影响。

二、Redis 多租户平台方案

在最初做 Redis 多租户平台时,公司只有虚机环境,还没有容器环境。

1、Redis 多租户平台的设计方案

Redis 多租户平台的设计图如下:



Redis 多租户平台分为三部分,分别是 Redis 管理后台、Redis 的客户端、Redis 集群。


对于 Redis 集群的部署,我们没有做持久化,通过一主一从数据冗余来保证高可用:其中”主“承接所有读写流量,”从“不承接任何读写流量,仅用于”主“故障时做灾备。


集群模式采用的 Redis Cluster。


某个节点的部署:

  • 1 个虚机节点部署 2 个 Redis 实例,一主一从;

    主从不是一对:避免单个虚机节点故障时,主从同时不可用  导致丢数据,且影响业务。

  • 对于同一个 redis 实例,可以多个应用(即多个 namespace)共享。


业务应用在使用 Redis 多租户平台前需要做什么呢?

  • 首先,一个业务应用要去 Redis 管理后台去申请一个属于这个应用的 namespace,通常 namespace 由"集群名 @应用名"组成,他作为该应用在 Redis 多租户平台上的唯一标识;

  • 其次,这个业务应用的负责人要提供这个应用历史的内存峰值。假设应用 1 的内存峰值是 2G,应用 2 的内存峰值是 3G,那么新的 Redis 多租户申请的资源预留 2 倍,及(2G+3G)*2 = 10G;

  • 最后,这个应用需要接入由我们基础架构提供的 Redis 客户端来访问 Redis 多租户集群。


业务应用在访问 Redis 多租户集群时,假设执行指令“set key1 abc”,那么 Redis 客户端会自动把原来的 key 前面加上“namespace:”前缀,即指令变成“set cluster1@app1:key1 abc",其中 cluster1 是 Redis 集群名,app1 是应用名。


这样,我们就可以根据 namespace 来区分不同应用在 Redis 集群中的数据了。


但是,这个方案仍然是多个应用共享 Redis 集群资源,仍存在不同租户(应用)间互相影响的风险。


2、如何保证租户间资源互不影响

保证不同租户间资源互不影响,我们是通过“监控、告警、问题根因定位、限流 or 禁用指令”这四步来完成的。

1)监控

对于 Redis 集群,我们会监控 ops,热 key 等等多维度指标,重点是内存使用率。


2)告警

由于我们 Redis 多租户集群,为用户峰值还多预留了一倍的资源,所以当用户达到内存使用峰值时,只会占用 50%的内存。

  • 内存使用率达到 60%,通过企业 IM 做 1 级告警;

  • 内存使用率达到 75%,通过短信做 2 级告警;

  • 内存使用率达到 85%,通过电话做 3 级告警。


3)问题根因定位

当告警 1 级时,管理员就要分析告警原因了,首先执行”RDB 内存分析工具“,分析内存不足是哪个应用流量激增导致的,然后分析是 bigkey 导致的还是就是请求量大导致的。


4)限流 or 禁用指令

定位到问题后,通过限流或禁用指令来确保 Redis 集群不被激增流量打挂:


  • bigkey 导致:采用禁用指令方式

    禁用指令的实现方案为,通过管理后台,定时下发配置给 Redis 客户端,指明要对该应用下的哪个 key 做禁用指令。

  • 流量高导致:采用限流

    限流也是管理后台下发配置给 Redis 客户端,做应用维度的限流。

3、RDB 分析工具的原理

上面”问题根因定位“时用到了 RDB 内存分析工具,这里我们基于开源做了一些定制化开发,原理是伪装成 Redis 从节点,Dump RDB 数据到本地内存,然后逐个 key 解析,分析出各应用的内存占比、bigkey top 10、key 的总数。


另外,RDB 内存分析工具会在每天业务低峰时段执行,这样,在故障时再执行 RDB 内存分析工具,把结果跟低峰时段的执行结果做比较,就能定位出是哪个业务应用增长快导致的告警。

4、问题与挑战

1)租户间资源“假”隔离

如果流量增长太快,来不及做限流或禁用指令,那么不同租户间理论上仍存在互相影响的微小可能。


挑战:怎样既能“真”隔离又能共享资源,租户间资源如果“真”隔离,就不会互相影响了。


2)解决激增流量告警时做限流或禁用指令都是对业务有损的

虽然限流或禁用指令的目标是异常使用 redis 的某个应用的 key, 但这样做对业务是有损的。


挑战:能否做到租户间既不互相影响又对业务无损呢?


3)集群数虽减少了但运维工作量仍不小

相比独享集群,集群数虽少了,但集群的创建、销毁、扩容、缩容、故障容灾等,仍需要人工运维,运维工作量跟集群数成正比。


挑战:运维成本是否有进一步降低的空间?


对于这几个问题,我们在 Redis 容器云的方案中都一一解决了。

三、Redis 容器云数据库平台优化实战

在这个阶段,我们公司开始支持容器环境,这时我们想,Redis 作为有状态服务,通过上容器是否可以解决我们当前存在的问题。

1、为什么需要租户间资源严格隔离

按上面的分析,大家知道不同租户间的资源仅做到逻辑隔离,存在互相影响的风险,因此要消除风险,需要做到租户间严格隔离资源边界。


这里有人会问,Redis 多租户的目的,本来就是为了共享资源提升资源利用率以降低成本,如果严格隔离了租户间的资源,那多租户的意义何在呢?


通常服务器的最低配是有限制的,例如 2C4G,但可能我的应用仅需要 0.5C1G,假设我们可以做到资源边界的严格隔离,那么 2C4G 的资源就仅分配给 4 个 0.5C1G 的应用,这样这 4 个应用就都没有了互相影响的风险。


达到这样的效果,我们很容易想到借助容器来实现。但做了严格的资源边界隔离,在保证租户间不会互相影响的同时,带来的弊端是不能够充分共享资源。


综上,我们推荐的做法是:

  • 对于 Redis 可用性非常敏感的应用,推荐采用资源的严格边界隔离方式,即一个 Pod 里只部署一个应用;

  • 对于 Redis 可用性不是非常敏感的应用,推荐采用资源的逻辑隔离方式,即一个 Pod 里同时部署多个应用,当激增流量时,通过容器水平扩容来解决。


这样在稳定性与最大限度提高资源利用率之间,根据应用对稳定性的不同要求,做出了相应的取舍。

2、如何借助 K8S 容器化 Redis 多租户集群

1)K8S 容器化 Redis 多租户集群的目的

  • 可做租户间资源边界的严格隔离:通过容器 Pod 最小化资源单位;

  • 解决激增流量对集群的影响:借助 Redis 集群节点水平扩容机制来解决激增流量时租户间互相影响,且不再有虚机方案时限流或禁用指令对业务有损的问题;

  • 降低运维成本:容器环境运维自动化,解决 Redis 集群规模大,人工运维成本高的问题。


2)K8S 容器化 Redis 集群面临的挑战

  • K8S 如何部署 Redis 有状态服务;

  • 容器 Crash 后如何不影响服务可用性;

  • 容器重启后如何保证 Redis 内存中的数据不丢;

  • 节点水平扩容时如何做到 slots 迁移时不影响业务。


3)Redis 多租户容器化的架构设计



上图主要分四个部分:

  • K8s 管理的 Redis 集群;

  • K8s 控制器面板;

  • Redis 管理后台;

  • 由我们基础架构提供的 Redis 客户端。


由 K8S 管理的 Redis 集群设计要点:

  • 一个 node 中部署 2 个 Pod,一主一从,但主从不是一对,避免一个 node 宕机一主一从同时故障导致丢数据;同时这一主已从也不是同一个集群,目的是确保一个 node 宕机时,最多只影响一个集群中的一个主节点;

  • 基于开源实现了定制化的 Redis Operator;

  • 用 anti-affinity 来确保同一组 master 和 slave 不会部署到同一个 node 上;

  • VKShark 服务为 K8s 的 api-server 的代理和 controller:当访问 k8s api-server 时,通过 VKShark 做代理;同时 VKShark 作为 controller 会监听 k8s node 的节点的变化,然后通知 Redis 管理后台;

  • 通过 Redis operator 的 CRD 来配置一组主从节点作为相同的 StatefulSet 管理。


节点扩容调用流程:

  • 由 Redis 管理后台选择集群,输入扩容节点数如 1 后,点击按钮发起节点扩容请求;

  • 扩容请求经由 VKShark 做代理,访问 k8s api-server, api-server 会把相应的 CRD 持久化到 ETCD 中;

  • Redis operator 监控 api-server, 发现有扩容请求,会创建 statefulset,通过 api-server 调用 k8s API 做节点扩容,新建一主一从两个 Pod;

  • Redis operator 经过 api-server 监听 Pod 的变化,并把新节点加入到 Redis Cluster 集群;

  • VKShark 通过 api-server 监听 Pod 的变化,发现有新节点,通知 Redis 管理后台;

  • Redis 管理后台先检测新的 Pod 是否已加入到了 Redis Cluster 集群,如已加入则只需 migrate 指令做槽位迁移;

  • Redis 管理后台会定时下发 Redis 的集群节点信息给 Redis 客户端;

  • Redis 客户端用最新的节点信息计算 key 的 slot。


3、如何让激增流量租户互不影响且对业务无损

1)容器可快速自动水平扩容  

有了容器环境,对于 Redis 可用性敏感的应用,可以一个 Pod 只部署一个应用,这个应用间不会互相争抢资源。那么对于某个应用,如果他的流量激增,容器环境也可以通过自动水平扩容来解决,而不必像虚机时 Redis 多租户方案那样通过限流或禁用指令对业务有损的方式。


当然,这里节点不能无限制扩容,当扩容节点数达到我们预先设置的最大阈值时,说明该流量激增属于”非正常“,有可能是系统 bug 等导致,这时会采取限流与禁用指令的方式


2)Redis Cluster 集群扩容时迁移槽位是否会影响业务

访问正在迁移的槽位中的某个 key:

槽位中 key 的迁移指令的迁移指令是同步阻塞的,所以访问正在迁移的 key,请求会被拒绝,这时利用我们基础架构封装的 Jedis 的客户端来做重试,在重试周期内,如果 key 迁移完成,就可以正常访问了,这在绝大多数情况下都是正常的。但如果迁移的 key 是 bigkey, 可能迁移时间很久,在 Redis 客户端重试周期内没有完成迁移,那么此时业务对这个 key 的访问就是失败的,后面会讲怎样解决 bigkey 的问题。


一个 slot 下可能有部分 key 被迁移完成,部分 key 正在等待迁移,如果被读写的 key 所属的 slot 正在被迁移,则 Redis Cluster 会自动处理:先去源节点找,没找到则重定向到目标节点,这个处理过程是 Redis Cluster 自带的,详细过程不再赘述。


3)如何解决大 Key、热 Key 等原因导致的 Redis 集群热点问题

对于 Redis 某些数据结构,如集群类型,会导致大 key; 某些节点访问频繁,会产生热 key。大 key 或热 key 都会导致集群中某节点成为热点。


如何定位大 key 热 key:

  • 大 key:通过 RDB 内存分析工具,可获取 top n 的大 key;

  • 热 key:通过 Redis 客户端向服务端监控投递监控数据。


解决方案:

  • 定位到导致问题的 Key 后,通过 Key 计算出对应的 slot,然后扩容个新节点,把除大 Key 或热 Key 之外的槽位迁移至新节点中。然后在集群节点扩容缩容做槽位迁移时,排除掉大 key 热 key 槽位所在的节点;

  • 大 key 热 key 通常是业务使用不当导致,也会线下通知业务进行治理。


4)如何做 Redis 多租户平台故障容灾

①Redis 节点故障怎样做故障容灾


Redis 上容器后,单个节点故障:

  • 如故障的是从节点,对服务无影响,因为主节点承接所有读写流量,从节点仅作为主节点灾备,从故障后,Redis operator 会监听到,并拉起新的从节点,然后加入到 Redis cluster 集群,再从主节点向从节点同步数据,这时仅在数据同步时对主节点的资源有些消耗,在实际使用中我们发现对主节点资源的消耗对集群基本无大的影响;

  • 如故障的是主节点,主节点是承接业务所有的读写流量,确认主节点故障的时间是可配置的,如配置 5 秒,那么在确认周期内,对业务是有影响的,待确认主节点故障后,从节点会顶替主节点。由于主节点向从节点做数据同步是异步的,所以在主节点故障时,还没来得及向从节点同步的数据,是会丢失的。在从节点顶替主节点后,Redis Operator 会拉起新的 Pod 作为从节点,然后加入 Redis cluster 集群,从主节点同步数据。


②如何做 Redis 机房故障容灾


当前公司有 A、B 两个机房,假设 A 机房故障时,公司监控系统会监控发现,然后可通过 Redis 管理平台下发 B 机房的 Redis 集群节点地址给 Redis 客户端,Redis 客户端收到后,会自动重连到机房 B,从而做到了机房故障容灾切换。


当然原理 A 机房中 Redis 中的数据是全部丢失的,这个方案主要用于 Redis 作为缓存,同时业务可降级的场景。重点核心业务不强依赖于 Redis。


5)如何保证容器中 Redis 节点重启后数据不丢

Redis 目前公司内几乎所有的业务使用都作为缓存数据使用,无需持久化,其高可用通过主从节点数据冗余来保证。


对于个别需要持久化的 Redis 需求,K8S 可通过存储持久化数据到文件存储,当容器重启后可从文件存储中重新获取持久化数据,这里我们验证了持久化数据到 PVC 共享存储,采用的阿里云的 NAS 文件存储,测试是 OK 的,待线上实际场景验证。


6)多租户共享 Key 的解决方案

多租户共享 key,是指两个不同的应用要使用相同的 key 来共享数据。由于只有相同 namespace 的中的 key 的前缀才相同,要两个应用共享 key,就需要让这两个应用在同一个 namespace 中,Redis 平台会把这两个应用视为同一个应用。


由于 namespace 是资源配额的最小单位,这两个应用需要共同申请资源配额:即不只 key 共享,申请的资源配额也要共享。

四、Redis 多租户平台收益总结

1、降低服务器使用成本 – 资源共享

在 VIPKID 实战中,对比 Redis 容器云优化前后,服务器使用成本减少了 40%。

2、提升运维效率 – 从人工运维到自动化运维

在 Redis 集群部署在虚机时代,Redis 集群需要人工维护,集群数越多,运维成本越高。当 Redis 上 K8S 容器后,一切运维操作都是自动的,这时我们已经不再关注集群数的多少,依赖 K8S 与 Redis 管理平台配合,做到了全自动化运维。

3、提升系统稳定性 – 故障容灾自动化

借助于 Redis 多租户平台对节点故障容灾与机房故障容灾的能力,做到了故障容灾的自动化,大大缩短了故障容灾的处理时间。

Q&A

Q1:Redis 集群,一个服务器和另一个服务器是怎样均衡负载的?监控工具么?

A1:A1:我们 Redis 集群采用 Redis Cluster 集群模式,slot 的范围是 0~16383,通过算法把槽位平均负载到 Redis 集群的每个节点中。


Q2:Redis 在 K8S 环境自动扩容后,slot 也是自动迁移吗?

A2:K8S 自动扩容后,slot 是自动迁移的,但在扩容时,不是由 redis operator 触发的,而是由 Redis 管理后台触发,因为扩容时做槽位到节点的负载均衡,是不包含 bigkey 所在槽位专用的节点的,管理后台才知道哪个节点是 bigkey 专用的。


Q3:如何避免多个用户同时读取 Redis 中相同的数据?

A3:这位同学是想问,不同租户间数据怎样不会互相读取到吧?这是通过每个应用申请不同的 namespace 来区分的,例如,应用 1 和应用 2 在同一个 Redis 多租户集群,他们都执行了 set aaa bbb 指令,但应用 1 的 namespace 是 cluster1@app1, 应用 2 的 namespace 是 cluster1@app2,那么他们的 set aaa bbb 指令经过 Redis 客户端后,变成了"set cluster1@app1:aaa bbb"和“set cluster1@app2:aaa bbb”,通过 key 的不同前缀来区分。


Q4:Pod 的 IP 是固定的吗?

A4:Pod 的 IP 重启后是变化的。具体细节详见问题 6 答案。


Q5: Redis 内存大小配置多少?配置 rdb 吗?

A5:Redis 多租户集群的内存分配,跟里面应用的峰值内存有关,例如有两个应用共享 Redis 集群,一个应用内存峰值是 2G,另一个应用内存峰值是 3G,那么虚机环境下,集群的内存会预留 2 倍,即分配 10G(10G=(2G+3G)*2);容器环境下,预留 1.5 倍,即 7.5G(7.5G = (2G+3G)* 1.5)。


我们公司的 Redis 场景全部是内存场景,无持久化场景,Redis 数据的高可用是通过一主一从冗余实现,其中”主“承接业务的全部读写流量,”从“不承接流量,仅用于”主“故障时做灾备。做 RDB 仅在故障定位时,dump RDB 模型做问题分析定位。


Q6:Redis 是通过容器 IP 访问,还是通过 K8S 访问?

A6:通过容器中 Pod 的 IP 访问。当 Pod 重启后,IP 会变化。Redis 客户端会缓存集群中所有 IP 列表,Redis 管理后台会定时同步最新的集群 IP 列表给 Redis 客户端,假设 Pod 重启 IP 变化了,但 Redis 客户端还没来得及从 Redis 管理后台同步到最新 IP,那么 Redis 客户端会访问旧的 IP,这时它找不到该 IP,会访问集群中的其他 IP 来拉取集群中最新的 IP 列表,从而访问到变化的 IP。


Q7:Redis 管理平台有演示环境吗?

A7:Redis 管理平台,主要提供监控、数据展示、自动化运维等能力,有机会可以单独交流。


Q8:Redis 是共享存储还是本地存储,如果用共享存储,是否遇到过 aof 刷缓存导致的线程阻塞?

A8:当前我们公司的场景 Redis 数据全部存在内存中,通过主从数据冗余来保证数据高可用,暂没有持久化场景。


Q9:Redis 集群如何解决 key 分布不均的问题呢?

A9:某个 key 具体落到哪个槽位,是通过负载均衡算法保证每个槽位中的 key 数量保持均衡,然后确保槽位平均分配到 Redis 集群中的每个节点。


当然每个槽位中 key 数量基本相同的情况下,每个 key 的大小不同,对于 bigkey 的治理方案,请参考我发的 PPT 及文档;对于槽位落点不均衡的情况,我们在业务低峰时段有巡检,然后通过自定义算法,平均负责槽位到每个 Redis 节点(大 key、热 key 的槽位除外)。


Q10:Redis 集群压测工具有推荐么?

A10:都可以,无特别推荐,我们 QA 选的 redis-benchmark。


Q11:Key 生命周期更新策略的优化?

A11 : 对于 Redis 无过期时间的 key 的治理,我们的策略是通过 RDB 内存分析工具按 key 的大小从大到小排名,找出 top n 的 key, 再用 debug 命令逐个查找每个 key 有多久没有被访问了,然后拿着这个结果找对应的业务聊,逐步进行治理。


嘉宾介绍:

石鹏,VIPKID 基础架构存储平台负责人。曾就职于摩托罗拉、爱奇艺,10 余年专注于高并发、高可用、分布式存储方向,发表过相关专利 20 余篇;目前负责 VIPKID 基础架构存储平台,包括 Redis 平台、Kafka 平台、RocketMQ 平台、 ElasticSearch 搜索平台、数据库访问平台、对象存储平台等。


本文转载自:dbaplus 社群(ID:dbaplus)

原文链接:降本40%!Redis多租户集群的容器化实践

2021-02-19 08:004063

评论

发布
暂无评论
发现更多内容

小程序多端引流技术上的“降本增效”

FinFish

小程序技术 小程序容器技术 小程序多端引流

快递鸟电子面单模板规格大全

快递鸟

快递 电子面单

Java并发编程知识图谱,掌握并发业务所需的技能点(收藏篇)

肖哥弹架构

Java 并发编程 高并发

DNS解析常见问题有哪些?DNS解析出现问题怎么解决?

国科云

软件测试学习笔记丨Flask操作数据库-数据CRUD(增删改查)

测试人

软件测试 测试开发

2024年游戏市场买量潜力如何?

Geek_2305a8

拼多多详情API的价值与应用解析

科普小能手

API 接口 API 测试 拼多多API接口 拼多多API 拼多多商品API接口

在昇腾Ascend 910B上运行Qwen2.5推理

SEAL安全

为何大多数程序员不选择个人独立开发?

Geek_2305a8

华为云开源时序数据库openGemini:使用列存引擎解决时序高基数问题

华为云开发者联盟

Clickhouse 时序数据库 高基数 openGemini

提升需求文档清晰度的实用技巧

爱吃小舅的鱼

需求管理 需求文档 需求沟通

Fish Agent:多语言 Voice-to-Voice 开源语音模型;Runway 推出摄像机运镜功能丨 RTE 开发者日报

声网

Web3 游戏周报(10.27 - 11.02)

Footprint Analytics

链游

dubbo3.0 服务导入导出原理

京东科技开发者

友商科技:热仿真分析咨询点击百万 热设计仿真公司

Geek_2d6073

一张网支撑AI端到端应用,哔哩哔哩与华为联袂演绎高维度算网融合

新消费日报

5 年 “0” 故障,万亿级城商行的非结构化数据底座

XSKY星辰天合

Zypher Network:全栈式 Web3 游戏引擎,引领服务器抽象叙事

西柚子

有php转go项目经验者优先?

王中阳Go

php Go 面试

前端技术探秘-Nodejs的CommonJS规范实现原理

京东科技开发者

鸿蒙Flutter实战:01-搭建开发环境

星释

flutter 鸿蒙 HarmonyOS NEXT

互联网大厂钟爱的压测工具分享

优测云服务平台

压力测试、

软件测试学习笔记丨Flask操作数据库-多对多

测试人

数据库 软件测试 测试开发

如何激发下属的工作积极性

老张

团队管理 绩效管理

DApp质押挖矿系统开发详细案例及源码部署指南

区块链软件开发推广运营

交易所开发 dapp开发 区块链开发 链游开发 代币阿凯

加锁失效,非锁之过,加之错也

京东科技开发者

项目经理把控项目质量真的很难吗?

Hi-CodeCaptain

代码质量 测试覆盖率 精准测试 软件开发、 质量内建

软件测试学习笔记丨Flask操作数据库-一对多

测试人

软件测试

快递鸟上门取件API接口代码流程

快递鸟

快递物流

东芝音画双芯MiniLED电视Z750NF上市,打造真实影院级视听盛宴

Geek_2d6073

如何应对频繁变更的需求以防项目范围蔓延

爱吃小舅的鱼

需求管理 需求变更 项目范围

降本40%!Redis多租户集群的容器化实践_文化 & 方法_dbaplus社群_InfoQ精选文章