写点什么

百度 App 网络深度优化系列(二):连接优化

  • 2019-03-29
  • 本文字数:5464 字

    阅读完需:约 18 分钟

百度App网络深度优化系列(二):连接优化

网络优化是客户端几大技术方向中公认的一个深度领域,所以百度 App 给大家带来网络深度优化系列文章,其中包含系列(一)DNS 优化,系列(二)连接优化,系列(三)弱网优化,希望对大家在网络方向的学习和实践有所帮助。

一、前言

在系列(一)里大家了解到网络优化一般会首选优化 DNS,而接下来的 HTTP 协议成为优化的重点,一般优化者会选择协议切换,合并请求,精简数据包大小等手段来对 HTTP 协议进行优化,严谨的说这都不属于网络优化的范畴。


HTTP 协议的基础是连接,所以我们的系列《二》连接优化应运而生,希望对大家在网络方向的学习和实践有所帮助。

二、背景

连接优化需要解决两个核心问题


  1. 连接建立耗时较长,导致请求的总时长变长,进而影响用户体验

  2. 在多变的网络环境下,连接建立的过程可能会失败,导致成功率下降,进而影响用户体验


百度 App 承载着亿级流量,对于每一个请求都需要追求耗时短,成功率高的体验。从协议角度出发,如何才能做到这一点呢?首先我们来看下建立连接耗时的原理。



建立连接耗时的原理


从上图我们能清晰的看出


  1. DNS Query 需要 1 个 RTT(Round-Trip Time,即往返时间),百度 App 都是基于 HTTPDNS 服务的,所以大部分会命中缓存,如果降级走了系统 DNS,也会命中缓存,命中不了的由于是基于 UDP 协议,所以在连接耗时上没有太大的影响,线上的数据也能说明这点。

  2. TCP 要经历 SYN,SYN/ACK,ACK 三次握手的 1.5 个 RTT,不过 ACK 和 ClientHello 合并了,所以就是 1 个 RTT。

  3. TLS(Transport Layer Security,即传输层安全性协议)需要经过握手和密钥交换 2 个 RTT。


综上所述,DNS,TLS,TCP 握手阶段用了 4 个 RTT 才到了 ApplicationData 阶段,也就是数据开始传输阶段


通过上面的分析可以总结出,如果我们能尽量的将 TLS 和 TCP 的 RTT 减少,将会大大降低连接耗时的时间。

三、连接优化我们都能做什么

百度 App 的优化目标分为两类,一类是 TLS 的连接优化,一类是 TCP 的连接优化

TLS 的连接优化

TLS 的连接优化,需要服务端和客户端都需要支持,共同完成优化手段,包括 Session Resumption 和 False Start。

Session Resumption

Session Resumption 中文意思是会话复用,下图讲解了 Session Resumption 的协议原理。



Session Resumption 的协议原理


通过上图可以看出 TLS 密钥协商交换的过程没有了,但具体是如何实现的呢?包含两种方式,一种是 Sesssion Identifier,一种是 Session Ticket

1)Session Identifier

Session Identifier 中文为会话标识符,更像我们熟知的 session 的概念。是 TLS 握手中生成的 Session ID。服务端会将 Session ID 保存起来,客户端也会存储 Session ID,在后续的 ClientHello 中带上它,服务端如果能找到匹配的信息,就可以完成一次快速握手。

2)Session Ticket

Session Identifier 存在一些弊端,比如客户端多次请求如果没有落在同一台机器上就无法找到匹配的信息,但 Session Ticket 可以。Session Ticket 更像我们熟知的 cookie 的概念,Session Ticket 用只有服务端知道的安全密钥加密过的会话信息,保存在客户端上。客户端在 ClientHello 时带上了 Session Ticket,服务器如果能成功解密就可以完成快速握手。


不管是 Session Identifier 还是 Session Ticket 都存在时效性问题,不是永久生效,对于这两种方式大家可以查看参考资料【4】。百度 App 的网络协议层对这两种方式都是支持的,省去了 TLS 握手过程中证书下载,密钥协商交换的环节,节省了 1 个 RTT 的时间。

False Start

False Start 的中文意思是抢跑,下图讲解了 False Start 的协议原理。



False Start 的协议原理


上图很清晰的说明在 TLS 第一步握手成功后,客户端在发送 Change Cipher Spec Finished 的同时开始数据传输,服务端在 TLS 握手完成时直接返回应用数据。应用数据的发送实际上并未等到握手全部完成,所以称之为抢跑


从结果看省去了 1 个 RTT 的时间。False Start 有两个前提条件,一是要通过应用层协议协商 ALPN(Application Layer Protocol Negotiation)握手,二是要支持前向安全的加密算法。False Start 在未完成握手的情况下就发送了数据,前向安全可以提高安全性,具体协议实现,大家可以查看参考资料【3】。百度 App 的网络协议层对 False Start 是支持的。


这里说句题外话,其实 TCP 层有个类似的连接优化手段叫 Fast Open,感兴趣的同学,可以查看参考资料【5】。

Session Resumption 和 False Start 的区别

两者对于 TLS 来说都是节省一个 RTT,Session Resumption 在第一次握手时还是需要 2 个 RTT,在第二次握手时才能复用减少到 1 个 RTT。False Start 是端上的行为,故每次都会减少到 1 个 RTT。

TCP 的连接优化

TCP 的连接优化,我们先从连接池说起,首先让我们来认识下连接池都有哪些类型。

1. 连接池


连接池的类型


上图展示了连接池的不同类型,都是大家耳熟能详的协议连接池,有低级连接池,包含 TCP 连接池(管理 HTTP 请求的连接)和 WebSocket 连接池(管理 WebSocket 连接)。


有高级连接池,包括 HTTP 代理连接池(管理 HTTP 代理请求的连接),SpdySession 连接池(管理 SPDY 和 HTTP/2 请求的连接),SOCKS 连接池(管理 SOCKS 和 SOCKS5 代理的连接),SSL 连接池(管理 HTTPS 请求的连接)。


不同类型的连接池以组合的形式互相复用能力。


1)SSL 连接池管理的是 SSLSocket,但 SSLSocket 又依赖于 TCP 连接池提供的 TCPSocket。


2)HTTP 代理连接池如果走 HTTP 协议,那么就需要 TCP 连接池提供 TCPSocket,如果走 HTTPS 协议,那么就需要 SSL 连接池提供 SSLSocket。


3)SpdySession 连接池依赖 SSL 连接池提供 SSLSocket,这里需要说明下,虽然 HTTP/2 协议没有强制绑定 HTTPS,但是在实际开发中确实都是绑定 HTTPS,百度 App 使用 ALPN 来协商 HTTP/2。


4)SOCKS 连接池管理的 SOCKSSocket 和 SOCKS5Socket 都需要依赖 TCP 连接池提供的 TCPSocket,虽然 SOCKS5 支持 UDP,但 cronet 网络库暂时没有实现。


5)WebSocket 连接池依赖 TCP 连接池提供的 TCPSocket,声明下这里没有说明 WSS(Web Socket Secure)的情况。


TCP 连接优化是一个比较复杂的内容,百度 App 做了针对性场景优化,包括预连接,连接重建,备用连接,复合连接

2. 预连接


预连接和连接重建


预连接,预先创建好的连接。它解决的场景是在 App 使用阶段可以无耗时的获取连接。下面用四个问答来解释预连接。


问题一:预连接是否能解决所有网络请求的提前连接建立?


答:答案是否定的,预连接需要业务方进行核心业务的评估,针对核心的域名进行预连接的建立。


问题二:预连接既然针对的是特定的域名,那么是如何配置的呢?


答:采用域名+连接数的方式进行配置,比如https://a.baidu.com|2,表示给 a.baidu.com 这个域名配置两条预连接,这里要说明下,在 HTTP/1.x 协议下,网络库的实现都会对于单域名有最大连接数的限制,不同网络库的个数限制不一样,有 5 个也有 6 个,但对于 HTTP/2 协议,这个连接数就只能是 1 个。


问题三:预连接是如何建立的?


答:在网络库初始化的时候,会根据使用者的配置延迟 5s 进行预连接的建立,主要是考虑网络库在冷启动下对于启动性能的影响,为了保证网络库的整体性能,预连接的总个数限制在 20 个。


问题四:预连接是如何保持的?


答:在网络库初始化的时候,除了进行预连接的建立,还会创建一个预连接的定时器,这个定时器会每隔 31s,这个值的设定取决于 BFE(Baidu Front End,是七层流量的统一接入系统)和 BGW(Baidu Gate Way,百度自主研发的四层负载均衡平台)对超时的最小值设定,根据使用者的配置重新建立连接。

3. 连接重建

连接重建,将连接重新建立。它解决的场景是 App 网络状态发生变化,IP 地址变化,导致连接不可用。下面用三个问答来解释连接重建。


问题一:连接重建是否针对连接池里的所有连接?


答:答案是肯定的。


问题二:连接重建的过程是什么样的?


答:在网络状态变化的时候,第一步会清除掉连接池里的 idle socket,何为 idle socket?即空闲 socket,对于从未使用过的空闲 socket 超过 60 秒清除,对于使用过的空闲 socket 超过 90 秒清除。第二步重建连接需要等待 200ms,目的是等待 DNS 先重建完成。


问题三:连接重建对于性能有影响吗?


答:出于性能考虑,连接重建的连接个数限制是 100 个。

4. 备用连接


备用连接和复合连接


备用连接,预备的连接。它解决的场景是正常发送一个请求当 group 内无连接可用的时候(何为 group?group 是管理 socket 的最小单元,内部包含活跃 socket,空闲 socket,连接任务,等待请求)。下面用三个问答来解释备用连接。


问题一:备用连接是否针对所有请求?


答:答案是肯定的。


问题二:备用连接的过程是什么样的?


答:当有请求来临时,连接池内无连接可用,会启动一个定时器开启备用连接,定时器的间隔时间是 250ms,与主连接进行竞争,如果主连接因为网络抖动或者网络状态不好,导致连接失败,那么备用连接就直接发送请求。如果主连接成功,那么备用连接就被取消掉。


问题三:备用连接的目的是什么?


答:在连接池无连接的情况下,务必是要创建连接的,在主连接之外加一个备用连接,会大大提升创建连接的成功率,从而提升用户体验。

5. 复合连接:

复合连接,即多条连接。它解决的场景是为了多个 IP 地址的连接选取问题。下面用三个问答来解释复合连接。


问题一:复合连接是否针对所有请求?


答:答案是肯定的。复合连接可以全局开关,百度 App 现阶段暂时没有开启复合连接。


问题二:复合连接的过程是什么样的?


答:众所周知域名 DNS 查询一般情况下会返回多个 IP,我们以域名查询返回两个 IP 为例


1)如果结果中存在 IPv6 的地址,那么会优先选用 IPv6 的地址,这个规则 follow HappyEyeBall 机制(可参考系列一对于 HappyEyeBall 的介绍)。


2) 接下来这两个 IP 会按照顺序尝试建立连接,如果第一个 IP 返回失败,将立即开始连接第二个 IP。


3)如果第一个 IP 率先成功返回,那么第二个 IP 将被加入连接尝试列表并停止所有尝试连接。


4)如果第一个 IP 失败,会立刻开始第二个 IP 的连接。


5)如果第一个 IP 处于 pending 状态,那么会启动一个定时器,默认延迟 2s 会发起第二个 IP 的连接,如果是多个 IP 将会递归连接,需要特别说明下,不同的网络制式延迟时间会不一样,这样体验也会更好。


问题三:复合连接的目的是什么?


答:复合连接的好处是提供最优的 IP 选取机制,但也会带来服务端的高负载,所以使用的时候需要进行综合评估。

四、连接优化的最佳实践

百度 App 目前客户端网络架构由于历史原因还未统一,不过我们正朝着这个目标努力。


我们的中心思想是以系统网络库的 API 调用接口为中心,上层建立网络门面,供外部便捷调用,底层通过系统机制以 AOP 的方式将 cronet(chromium 的 net 模块)注入进系统网路库,达到双端网络架构统一,能力复用


下面着重介绍下连接优化在 Android 和 iOS 网络架构中的位置及实践。


  1. 连接优化在 Android 网络架构的位置及实践



连接优化在 Android 网络架构的位置


百度 App 的 Android 网络流量目前都在 okhttp 之上,上层进行了网络门面的封装,封装内部的实现细节和对外友好的 API,目前我们正在进行重构,默认采用 Android 标准的网络接口 HttpURLConnection,它的底层由系统提供的 okhttp 的实现。


订制方面利用 URL Stream Protocol 机制将 HttpURLConnection 底层网络协议栈接管为 cronet,供各个业务和基础模块使用,连接优化的所有内容在 cronet 网络库内部实现。

2. 连接优化在 iOS 网络架构的位置及实践


连接优化在 iOS 网络架构的位置


百度 App 的 iOS 网络流量目前都在 cronet 之上,上层我们使用 iOS 的 URL Loading System 机制将 cronet stack 注入进 URLSession 里,这样我们就可以直接使用 URLSession 的 API 进行网络的操作而且更易于系统维护,在上层封装了网络门面,供各个业务和基础模块使用。


在 cronet 内部实现了预连接(主要针对百度 App 的几个核心域名进行预连和保活),连接重建(针对所有请求),备用连接(针对所有请求),复合连接(iOS 上暂时没有开启),Session Resumption(针对所有请求),False Start(针对所有请求)

五、收益

连接优化的收益主要体现在网络时延和网络成功率上,这两点收益需要结合业务来说,以百度 App Feed 刷新这个典型业务场景为例。


Feed 刷新文本请求网络时延降低 16%,Feed 刷新图片请求网络时延降低 12%,可谓收益相当明显。


成功率方面,Feed 刷新文本请求成功率提升 0.29%,Feed 刷新图片请求成功率提升 0.23%,也是非常不错的收益。

六、结语

连接优化是个持续性的话题,没有最优只有更优。上面介绍的百度 App 的一些经验和做法并不见得完美,但我们会继续深入的优化下去,持续提升百度 App 的网络性能。


以上优化由百度 App 团队,内核团队,OP 团队共建完成。最后感谢大家的辛苦阅读,希望对你有所帮助,后面会继续推出-百度 App 网络深度优化系列《三》弱网优化,敬请期待。

七、参考资料

  1. https://chromium.googlesource.com/chromium/src/+/HEAD/docs/android_build_instructions.md

  2. https://chromium.googlesource.com/chromium/src/+/HEAD/docs/ios/build_instructions.md

  3. https://tools.ietf.org/html/rfc7918 False Start

  4. https://tools.ietf.org/html/rfc5077 Session Resumption

  5. https://tools.ietf.org/html/rfc7413 TCP Fast Open

作者简介

蔡锐,9 年移动客户端开发经验,在百度先后主导过订制 ROM 领域、多屏互动领域、Hybrid 跨平台领域等多个技术领域的开发,目前担任百度 App 的客户端资深工程师,参与基础技术的研究,专攻动态化和网络优化方向。


2019-03-29 08:007493

评论 1 条评论

发布
用户头像
我们的中心思想是以系统网络库的 API 调用接口为中心,上层建立网络门面,供外部便捷调用,底层通过系统机制以 AOP 的方式将 cronet(chromium 的 net 模块)注入进系统网路库,达到双端网络架构统一,能力复用。
===============
请问android上是使用自定义的URLStreamHandlerFactory吗,AOP体现在什么地方
2019-03-29 10:42
回复
没有更多了
发现更多内容

这个GItHub上的Java项目开源了 2021最全的Java架构面试复习指南

比伯

Java 编程 架构 面试 程序人生

未来已来,HarmonyOS 开发者日全记录

清秋

华为 开发 物联网 新闻 HarmonyOS

简单了解InnoDB底层原理

leonsh

MySQL 数据库 innodb

回顾过去,展望未来,我在 InfoQ 写作平台的一周年!

JackTian

程序员 个人总结 4月日更 1 周年盛典 InfoQ 写作平台 1 周年

专访阿里巴巴研究员吴翰清:白帽子的网络安全世界观

五分钟学大数据

网络安全 采访

Flink的基石

五分钟学大数据

flink 4月日更

计算机原理学习笔记 Day10

穿过生命散发芬芳

计算机原理 4月日更

如何提高Linux水平

cdhqyj

2021安擎昇腾AI服务器产品发布会在京成功举行

DT极客

架构思维

无心

架构

趣题与算法(1)

阳龙生

泰山版震撼来袭!阿里巴巴Java面试参考权威指南四月版开源

Java架构追梦

Java 阿里巴巴 架构 面试

欢迎参与 KubeVela 官方文档翻译活动

阿里巴巴云原生

容器 云原生 开发工具 OAM 资源调度

【全球年青人召集令】Hello World,Hello 2050

阿里巴巴云原生

容器 开发者 云原生 活动

推进智慧城市建设 博睿数据亮相长三角城市数字化转型高峰论坛

博睿数据

数字化转型高峰论坛

企业如何做数字化转型?想要资产状况及时把控,它的作用至关重要!

一只数据鲸鱼

数据挖掘 数字化 数据可视化 资产管理

华为云AI论文精读会2021第一期:高效语义分割模型Fast-SCNN分享

华为云开发者联盟

AI 华为云

不为人知的网络编程(十二):彻底搞懂TCP协议层的KeepAlive保活机制

JackJiang

TCP 即时通讯 IM

最新分享:如何避免线程安全的坑?看这一篇就够了

学Java关注我

Java 编程 程序员 架构 计算机

架构实战营作业2

冷酷小绵羊

开源 1 年半 star 破 1.2 万的 Dapr 是如何在阿里落地的?

阿里巴巴云原生

Java 微服务 云原生 中间件 API

CTO 说要接入实时音视频 SDK,我到底该批多少预算?

融云 RongCloud

手把手教大家实现一个电子签名

麦洛

Java canvas

如何在云中构建数字核心

云计算

方寸之间,书写天地

石云升

4月日更 1 周年盛典 我和写作平台的故事 InfoQ 写作平台 1 周年

那些打不垮你的,终究使你更强大

小天同学

读书 励志 个人感悟 4月日更

Flink中的状态编程

大数据技术指南

flink 4月日更

架构实战营模块1作业指导

华仔

#架构实战营

GitHub面试题库+阿里巴巴2021年Java岗面试26大核心专题,成功助我砍下7家大厂Offer

Java架构追梦

Java 阿里巴巴 架构 面试

Linux free 命令

一个大红包

linux命令 4月日更

知乎万赞回答:程序员面试为什么被要求造航母,而工作拧螺丝?

Java架构师迁哥

百度App网络深度优化系列(二):连接优化_移动_蔡锐_InfoQ精选文章