写点什么

基于 bbr 拥塞控制的云盘提速实践

  • 2019-11-28
  • 本文字数:2082 字

    阅读完需:约 7 分钟

基于bbr拥塞控制的云盘提速实践

云盘的速度是业界硬指标,是产品口碑和形象。传统的提速手段是大多基于代理服务器,用合适的代理连接用户与存储服务器。此方式有一定效果,但未结合国内网络情况和网络原理进行解决。bbr 拥塞控制算法针对长肥网络有很好的疗效,非常适合广域网情况,实践后速度迅猛提升。

引言

云盘作为数据存储产品,无论个人还是公司使用,其速度均是第一指标,也是用户评判云盘好坏的关键因素。速度上的提升会带来好的用户体验,以及用户粘连性。所以提速成为迫切需求。

传统 tcp 拥塞控制

1 广域网络环境

目前广域网普遍属于高带宽,高延迟,存在一定丢包率。网络丢包存在两种情况,第一为拥塞丢包,第二为错误丢包。错误丢包可能是网络传输过程中异常导致,大概有十万分之一的概率。


国内有很多二级运营商,它们大多为共享带宽,其网络 buffer 也是共享,网络共享 buffer 打满,会导致丢包,此类丢包造成滑动窗口折半,发送速率骤降。实则各用户带宽并未完全打满。


此类网络以下统称为长肥网络:即往返时间长,但带宽较大。

2 传统 tcp 拥塞控制算法

传统 tcp 拥塞控制目的是最大化打满网络带宽。一条链路就像水管,装满此水管需要估算管内容量。


管内容量 = 水管粗细(链路带宽) * 水管长度(往返延迟)


拥塞控制过程:慢启动、加性增、乘性减。开始指数增加发送窗口,遇到丢包快速折半发送窗口,降低发送速率。

3 tcp 拥塞控制无法解决如下问题

无法定位丢包原因

无法区分丢包是拥塞导致还是错误导致,如果是网络传输错误导致丢包,其实还未打满带宽。在有一定丢包率的长肥网络中发送窗口会收敛到很小,导致发包速率很小。

缓冲区膨胀问题

网络缓冲区膨胀,网络中有一些 buffer,用于吸收波动的流量。开始阶段以指数级速率快速发包,导致 buffer 快速打满,buffer 满后会产生丢包。丢包造成发送窗口骤降,而后发送窗口和 buffer 都会逐渐下降收敛。此情况未能打满带宽以及 buffer 使用率。认为此类丢包是带宽打满,实则不然,只是开始过快的增长导致 buffer 打满丢包而已。



图 2.1 缓冲区膨胀现象

bbr 拥塞控制

1 解决上述两类问题

  1. 不考虑丢包情况,因为无法区分拥塞丢包,错误丢包。

  2. 缓冲区膨胀现象是同时估计带宽和延迟导致的。因为发送窗口需要这两参数计算出管内容量,但同时计算会导致不准。例如:要测最大带宽需灌满水管,此时延迟必然高,因为缓冲区占满,包排队需时间。而要测最低延迟,需网络流量低,此时缓冲区基本为空,延迟低,但此时管内带宽估值也低。所以无法同时测量带宽和延迟的最好情况,即最大带宽和最低延迟。这就是本质,为什么传统 tcp 在长肥网络中很难打满带宽。


解决办法:分别估算带宽和延迟,以计算出最合适的管内容量。

2 bbr 拥塞控制过程

慢启动

指数增长发包,不理会丢包,不折半窗口,只检查有效带宽是否还再增长,直到有效带宽不再增长为止。有效带宽是指还未开始占用 buffer。

排空阶段

慢启动后,发包量依然有 3 倍管内容量,此时降低发包速率,以免管中多余包占满 buffer,导致丢包。

带宽探测阶段

每 8 个往返为一个周期,第一个往返,bbr 尝试以 5/4 速率增大发包,以估算带宽是否打满,第二个周期以 3/4 速率降低发包,以排空 buffer 中的冗余包,避免发生膨胀。剩下 6 个往返以新的带宽估算速率发包。如此为一个周期,不断探测直到打满真实带宽,如图 3.1 所示。

延迟探测阶段

每隔 10 秒,如果未发现新的最低延迟。此时发送窗口减到 4 个包,以此段时间发包的最低延迟作为估值。然后发送窗口回到之前的状态。



图 3.1 带宽检测持续增长,绿色为发包数量,蓝色为延迟



图 3.2 丢包率和有效带宽示意图。绿色为 bbr,红色为传统 tcp

3 bbr 小结

bbr 开始阶段不会迅猛打满管道,主要是避免缓冲区膨胀带来的丢包和延迟,后续交替探测带宽和延迟。探测带宽时,先增大发送速率后减小,也是避免缓冲区膨胀问题,丢包率降低不断收到有效 ack,进而持续增大发送窗口,如此轮回得到最大带宽。探测延迟时,发送窗口降为 4 个包,此时缓冲区未占满,管内通畅,探测到的延迟也是低而准的。交替探测带宽和延迟得到准确的管内容量,排空方式能避免缓冲区膨胀带来的丢包和延迟。

4 bbr 适合场景

  1. 存在一定丢包率的高带宽,高延迟网络。

  2. buffer 较小的慢接入网络。

bbr 在云盘中的实践

内核升级

代理服务器内核升级到 4.9 以上

开启 bbr 拥塞控制算法

echo "net.core.default_qdisc=fq" >> /etc/sysctl.conf       echo "net.ipv4.tcp_congestion_control=bbr" >> /etc/sysctl.conf       sysctl -p       sysctl net.ipv4.tcp_available_congestion_control       sysctl -n net.ipv4.tcp_congestion_control
复制代码

调整 tcp 内核参数

调整 tcp 内核参数,让滑动窗口大小突破 64kb


sysctl net.ipv4.tcp_window_scaling=1
复制代码

提速结果

人均速度提升


图 4.1 人均速度图


人均速度提升:50%左右

速度区域占比提升


图 4.2 速度区域占比图,蓝色为 1M/s- 2M/s,绿色为 2M/s 以上


1M 以上人数占比提升:100%左右


参考文献:

[1] Cardwell, Neal, et al. “BBR: Congestion-Based Congestion Control.” Queue14.5 (2016): 50.


本文转载自公众号 360 云计算(ID:hulktalk)。


原文链接:


https://mp.weixin.qq.com/s/dD395lMqLD4U61ZT2eAsoQ


2019-11-28 14:581210

评论

发布
暂无评论
发现更多内容

开鸿智谷与华秋达成生态共创合作,共同打造硬件生态

华秋电子

润和软件与华秋达成生态共创合作,共同推动物联网硬件创新

华秋电子

国内市场知名的数据可视化工具

2D3D前端可视化开发

数据分析 数据可视化 商业智能 数据可视化工具 可视化大屏

点云标注的未来发展与技术革新

来自四九城儿

“芯”有灵“蜥” 融合·创新!龙蜥社区走进 Intel MeetUp 议程硬核剧透来了

OpenAnolis小助手

开源 操作系统 intel Meetup 龙蜥社区

不懂代码也不用怕!10款无代码网站搭建平台

高端章鱼哥

前端 工具 开发工具 设计师

华秋慕尼黑上海电子展圆满收官,数字化赋能智能制造!

华秋电子

软通动力与华秋达成生态共创合作,共同推动物联网硬件创新

华秋电子

Java基础入门——Java语言介绍

java易二三

Java

软件测试/测试开发丨Linux常用命令之性能统计

测试人

Python Linux 程序员 性能 软件测试

有哪些好用的远程传输大文件的软件

镭速

远程传输大文件

aspera替代方案:可靠和高效的企业文件传输工具

镭速

aspera替代方案 企业文件传输工具

先楫半导体与华秋达成生态共创合作,共建技术生态社区

华秋电子

深开鸿与华秋达成生态共创合作,共同打造硬件生态

华秋电子

点云标注在自动驾驶中的实践应用与挑战

来自四九城儿

应对突发流量,如何快速为自建 K8s 添加云上弹性能力

阿里巴巴云原生

阿里云 Kubernetes 云原生

Karmada:让跨集群弹性伸缩FederatedHPA突破新边界

华为云开发者联盟

云计算 后端 华为云 华为云开发者联盟 企业号 7 月 PK 榜

开发微信公众号本地调试+-+cpolar内网穿透

程思扬

微信公众号 网络穿透

MES1.0.0正式发布|万界星空推出免费的MES系统

万界星空科技

开源 MES系统 制造业生产管理系统

2023年中国(深圳)国际耐火材料产业展会

秋硕展览

LeetCode题解:2618. 检查是否是类的对象实例,迭代和递归

Lee Chen

JavaScript LeetCode

直播预告 | 博睿学院:让Arthas带你玩转jvm

博睿数据

JVM 可观测性 智能运维 博睿数据 博睿学院

向量检索在大模型应用场景的技术和实践

Baidu AICLOUD

向量检索 大模型

尝试7分钟内上线一个网站,这个工具太赞了!

互联网工科生

低代码 搭建平台 搭建网站

2023中国老博会/2023西部养老辅具展会

秋硕展览

共筑信创生态!亚信科技AntDB数据库与用友、东方通、星辰天合达成兼容互认

亚信AntDB数据库

数据库 AntDB AntDB数据库

实现大文件远程传输、备份和共享的小秘诀

镭速

大文件远程传输

基于bbr拥塞控制的云盘提速实践_文化 & 方法_卿鹏_InfoQ精选文章