产品战略专家梁宁确认出席AICon北京站,分享AI时代下的商业逻辑与产品需求 了解详情
写点什么

百度 App 网络深度优化系列(二):连接优化

  • 2019-03-29
  • 本文字数:5464 字

    阅读完需:约 18 分钟

百度App网络深度优化系列(二):连接优化

网络优化是客户端几大技术方向中公认的一个深度领域,所以百度 App 给大家带来网络深度优化系列文章,其中包含系列(一)DNS 优化,系列(二)连接优化,系列(三)弱网优化,希望对大家在网络方向的学习和实践有所帮助。

一、前言

在系列(一)里大家了解到网络优化一般会首选优化 DNS,而接下来的 HTTP 协议成为优化的重点,一般优化者会选择协议切换,合并请求,精简数据包大小等手段来对 HTTP 协议进行优化,严谨的说这都不属于网络优化的范畴。


HTTP 协议的基础是连接,所以我们的系列《二》连接优化应运而生,希望对大家在网络方向的学习和实践有所帮助。

二、背景

连接优化需要解决两个核心问题


  1. 连接建立耗时较长,导致请求的总时长变长,进而影响用户体验

  2. 在多变的网络环境下,连接建立的过程可能会失败,导致成功率下降,进而影响用户体验


百度 App 承载着亿级流量,对于每一个请求都需要追求耗时短,成功率高的体验。从协议角度出发,如何才能做到这一点呢?首先我们来看下建立连接耗时的原理。



建立连接耗时的原理


从上图我们能清晰的看出


  1. DNS Query 需要 1 个 RTT(Round-Trip Time,即往返时间),百度 App 都是基于 HTTPDNS 服务的,所以大部分会命中缓存,如果降级走了系统 DNS,也会命中缓存,命中不了的由于是基于 UDP 协议,所以在连接耗时上没有太大的影响,线上的数据也能说明这点。

  2. TCP 要经历 SYN,SYN/ACK,ACK 三次握手的 1.5 个 RTT,不过 ACK 和 ClientHello 合并了,所以就是 1 个 RTT。

  3. TLS(Transport Layer Security,即传输层安全性协议)需要经过握手和密钥交换 2 个 RTT。


综上所述,DNS,TLS,TCP 握手阶段用了 4 个 RTT 才到了 ApplicationData 阶段,也就是数据开始传输阶段


通过上面的分析可以总结出,如果我们能尽量的将 TLS 和 TCP 的 RTT 减少,将会大大降低连接耗时的时间。

三、连接优化我们都能做什么

百度 App 的优化目标分为两类,一类是 TLS 的连接优化,一类是 TCP 的连接优化

TLS 的连接优化

TLS 的连接优化,需要服务端和客户端都需要支持,共同完成优化手段,包括 Session Resumption 和 False Start。

Session Resumption

Session Resumption 中文意思是会话复用,下图讲解了 Session Resumption 的协议原理。



Session Resumption 的协议原理


通过上图可以看出 TLS 密钥协商交换的过程没有了,但具体是如何实现的呢?包含两种方式,一种是 Sesssion Identifier,一种是 Session Ticket

1)Session Identifier

Session Identifier 中文为会话标识符,更像我们熟知的 session 的概念。是 TLS 握手中生成的 Session ID。服务端会将 Session ID 保存起来,客户端也会存储 Session ID,在后续的 ClientHello 中带上它,服务端如果能找到匹配的信息,就可以完成一次快速握手。

2)Session Ticket

Session Identifier 存在一些弊端,比如客户端多次请求如果没有落在同一台机器上就无法找到匹配的信息,但 Session Ticket 可以。Session Ticket 更像我们熟知的 cookie 的概念,Session Ticket 用只有服务端知道的安全密钥加密过的会话信息,保存在客户端上。客户端在 ClientHello 时带上了 Session Ticket,服务器如果能成功解密就可以完成快速握手。


不管是 Session Identifier 还是 Session Ticket 都存在时效性问题,不是永久生效,对于这两种方式大家可以查看参考资料【4】。百度 App 的网络协议层对这两种方式都是支持的,省去了 TLS 握手过程中证书下载,密钥协商交换的环节,节省了 1 个 RTT 的时间。

False Start

False Start 的中文意思是抢跑,下图讲解了 False Start 的协议原理。



False Start 的协议原理


上图很清晰的说明在 TLS 第一步握手成功后,客户端在发送 Change Cipher Spec Finished 的同时开始数据传输,服务端在 TLS 握手完成时直接返回应用数据。应用数据的发送实际上并未等到握手全部完成,所以称之为抢跑


从结果看省去了 1 个 RTT 的时间。False Start 有两个前提条件,一是要通过应用层协议协商 ALPN(Application Layer Protocol Negotiation)握手,二是要支持前向安全的加密算法。False Start 在未完成握手的情况下就发送了数据,前向安全可以提高安全性,具体协议实现,大家可以查看参考资料【3】。百度 App 的网络协议层对 False Start 是支持的。


这里说句题外话,其实 TCP 层有个类似的连接优化手段叫 Fast Open,感兴趣的同学,可以查看参考资料【5】。

Session Resumption 和 False Start 的区别

两者对于 TLS 来说都是节省一个 RTT,Session Resumption 在第一次握手时还是需要 2 个 RTT,在第二次握手时才能复用减少到 1 个 RTT。False Start 是端上的行为,故每次都会减少到 1 个 RTT。

TCP 的连接优化

TCP 的连接优化,我们先从连接池说起,首先让我们来认识下连接池都有哪些类型。

1. 连接池


连接池的类型


上图展示了连接池的不同类型,都是大家耳熟能详的协议连接池,有低级连接池,包含 TCP 连接池(管理 HTTP 请求的连接)和 WebSocket 连接池(管理 WebSocket 连接)。


有高级连接池,包括 HTTP 代理连接池(管理 HTTP 代理请求的连接),SpdySession 连接池(管理 SPDY 和 HTTP/2 请求的连接),SOCKS 连接池(管理 SOCKS 和 SOCKS5 代理的连接),SSL 连接池(管理 HTTPS 请求的连接)。


不同类型的连接池以组合的形式互相复用能力。


1)SSL 连接池管理的是 SSLSocket,但 SSLSocket 又依赖于 TCP 连接池提供的 TCPSocket。


2)HTTP 代理连接池如果走 HTTP 协议,那么就需要 TCP 连接池提供 TCPSocket,如果走 HTTPS 协议,那么就需要 SSL 连接池提供 SSLSocket。


3)SpdySession 连接池依赖 SSL 连接池提供 SSLSocket,这里需要说明下,虽然 HTTP/2 协议没有强制绑定 HTTPS,但是在实际开发中确实都是绑定 HTTPS,百度 App 使用 ALPN 来协商 HTTP/2。


4)SOCKS 连接池管理的 SOCKSSocket 和 SOCKS5Socket 都需要依赖 TCP 连接池提供的 TCPSocket,虽然 SOCKS5 支持 UDP,但 cronet 网络库暂时没有实现。


5)WebSocket 连接池依赖 TCP 连接池提供的 TCPSocket,声明下这里没有说明 WSS(Web Socket Secure)的情况。


TCP 连接优化是一个比较复杂的内容,百度 App 做了针对性场景优化,包括预连接,连接重建,备用连接,复合连接

2. 预连接


预连接和连接重建


预连接,预先创建好的连接。它解决的场景是在 App 使用阶段可以无耗时的获取连接。下面用四个问答来解释预连接。


问题一:预连接是否能解决所有网络请求的提前连接建立?


答:答案是否定的,预连接需要业务方进行核心业务的评估,针对核心的域名进行预连接的建立。


问题二:预连接既然针对的是特定的域名,那么是如何配置的呢?


答:采用域名+连接数的方式进行配置,比如https://a.baidu.com|2,表示给 a.baidu.com 这个域名配置两条预连接,这里要说明下,在 HTTP/1.x 协议下,网络库的实现都会对于单域名有最大连接数的限制,不同网络库的个数限制不一样,有 5 个也有 6 个,但对于 HTTP/2 协议,这个连接数就只能是 1 个。


问题三:预连接是如何建立的?


答:在网络库初始化的时候,会根据使用者的配置延迟 5s 进行预连接的建立,主要是考虑网络库在冷启动下对于启动性能的影响,为了保证网络库的整体性能,预连接的总个数限制在 20 个。


问题四:预连接是如何保持的?


答:在网络库初始化的时候,除了进行预连接的建立,还会创建一个预连接的定时器,这个定时器会每隔 31s,这个值的设定取决于 BFE(Baidu Front End,是七层流量的统一接入系统)和 BGW(Baidu Gate Way,百度自主研发的四层负载均衡平台)对超时的最小值设定,根据使用者的配置重新建立连接。

3. 连接重建

连接重建,将连接重新建立。它解决的场景是 App 网络状态发生变化,IP 地址变化,导致连接不可用。下面用三个问答来解释连接重建。


问题一:连接重建是否针对连接池里的所有连接?


答:答案是肯定的。


问题二:连接重建的过程是什么样的?


答:在网络状态变化的时候,第一步会清除掉连接池里的 idle socket,何为 idle socket?即空闲 socket,对于从未使用过的空闲 socket 超过 60 秒清除,对于使用过的空闲 socket 超过 90 秒清除。第二步重建连接需要等待 200ms,目的是等待 DNS 先重建完成。


问题三:连接重建对于性能有影响吗?


答:出于性能考虑,连接重建的连接个数限制是 100 个。

4. 备用连接


备用连接和复合连接


备用连接,预备的连接。它解决的场景是正常发送一个请求当 group 内无连接可用的时候(何为 group?group 是管理 socket 的最小单元,内部包含活跃 socket,空闲 socket,连接任务,等待请求)。下面用三个问答来解释备用连接。


问题一:备用连接是否针对所有请求?


答:答案是肯定的。


问题二:备用连接的过程是什么样的?


答:当有请求来临时,连接池内无连接可用,会启动一个定时器开启备用连接,定时器的间隔时间是 250ms,与主连接进行竞争,如果主连接因为网络抖动或者网络状态不好,导致连接失败,那么备用连接就直接发送请求。如果主连接成功,那么备用连接就被取消掉。


问题三:备用连接的目的是什么?


答:在连接池无连接的情况下,务必是要创建连接的,在主连接之外加一个备用连接,会大大提升创建连接的成功率,从而提升用户体验。

5. 复合连接:

复合连接,即多条连接。它解决的场景是为了多个 IP 地址的连接选取问题。下面用三个问答来解释复合连接。


问题一:复合连接是否针对所有请求?


答:答案是肯定的。复合连接可以全局开关,百度 App 现阶段暂时没有开启复合连接。


问题二:复合连接的过程是什么样的?


答:众所周知域名 DNS 查询一般情况下会返回多个 IP,我们以域名查询返回两个 IP 为例


1)如果结果中存在 IPv6 的地址,那么会优先选用 IPv6 的地址,这个规则 follow HappyEyeBall 机制(可参考系列一对于 HappyEyeBall 的介绍)。


2) 接下来这两个 IP 会按照顺序尝试建立连接,如果第一个 IP 返回失败,将立即开始连接第二个 IP。


3)如果第一个 IP 率先成功返回,那么第二个 IP 将被加入连接尝试列表并停止所有尝试连接。


4)如果第一个 IP 失败,会立刻开始第二个 IP 的连接。


5)如果第一个 IP 处于 pending 状态,那么会启动一个定时器,默认延迟 2s 会发起第二个 IP 的连接,如果是多个 IP 将会递归连接,需要特别说明下,不同的网络制式延迟时间会不一样,这样体验也会更好。


问题三:复合连接的目的是什么?


答:复合连接的好处是提供最优的 IP 选取机制,但也会带来服务端的高负载,所以使用的时候需要进行综合评估。

四、连接优化的最佳实践

百度 App 目前客户端网络架构由于历史原因还未统一,不过我们正朝着这个目标努力。


我们的中心思想是以系统网络库的 API 调用接口为中心,上层建立网络门面,供外部便捷调用,底层通过系统机制以 AOP 的方式将 cronet(chromium 的 net 模块)注入进系统网路库,达到双端网络架构统一,能力复用


下面着重介绍下连接优化在 Android 和 iOS 网络架构中的位置及实践。


  1. 连接优化在 Android 网络架构的位置及实践



连接优化在 Android 网络架构的位置


百度 App 的 Android 网络流量目前都在 okhttp 之上,上层进行了网络门面的封装,封装内部的实现细节和对外友好的 API,目前我们正在进行重构,默认采用 Android 标准的网络接口 HttpURLConnection,它的底层由系统提供的 okhttp 的实现。


订制方面利用 URL Stream Protocol 机制将 HttpURLConnection 底层网络协议栈接管为 cronet,供各个业务和基础模块使用,连接优化的所有内容在 cronet 网络库内部实现。

2. 连接优化在 iOS 网络架构的位置及实践


连接优化在 iOS 网络架构的位置


百度 App 的 iOS 网络流量目前都在 cronet 之上,上层我们使用 iOS 的 URL Loading System 机制将 cronet stack 注入进 URLSession 里,这样我们就可以直接使用 URLSession 的 API 进行网络的操作而且更易于系统维护,在上层封装了网络门面,供各个业务和基础模块使用。


在 cronet 内部实现了预连接(主要针对百度 App 的几个核心域名进行预连和保活),连接重建(针对所有请求),备用连接(针对所有请求),复合连接(iOS 上暂时没有开启),Session Resumption(针对所有请求),False Start(针对所有请求)

五、收益

连接优化的收益主要体现在网络时延和网络成功率上,这两点收益需要结合业务来说,以百度 App Feed 刷新这个典型业务场景为例。


Feed 刷新文本请求网络时延降低 16%,Feed 刷新图片请求网络时延降低 12%,可谓收益相当明显。


成功率方面,Feed 刷新文本请求成功率提升 0.29%,Feed 刷新图片请求成功率提升 0.23%,也是非常不错的收益。

六、结语

连接优化是个持续性的话题,没有最优只有更优。上面介绍的百度 App 的一些经验和做法并不见得完美,但我们会继续深入的优化下去,持续提升百度 App 的网络性能。


以上优化由百度 App 团队,内核团队,OP 团队共建完成。最后感谢大家的辛苦阅读,希望对你有所帮助,后面会继续推出-百度 App 网络深度优化系列《三》弱网优化,敬请期待。

七、参考资料

  1. https://chromium.googlesource.com/chromium/src/+/HEAD/docs/android_build_instructions.md

  2. https://chromium.googlesource.com/chromium/src/+/HEAD/docs/ios/build_instructions.md

  3. https://tools.ietf.org/html/rfc7918 False Start

  4. https://tools.ietf.org/html/rfc5077 Session Resumption

  5. https://tools.ietf.org/html/rfc7413 TCP Fast Open

作者简介

蔡锐,9 年移动客户端开发经验,在百度先后主导过订制 ROM 领域、多屏互动领域、Hybrid 跨平台领域等多个技术领域的开发,目前担任百度 App 的客户端资深工程师,参与基础技术的研究,专攻动态化和网络优化方向。


2019-03-29 08:007502

评论 1 条评论

发布
用户头像
我们的中心思想是以系统网络库的 API 调用接口为中心,上层建立网络门面,供外部便捷调用,底层通过系统机制以 AOP 的方式将 cronet(chromium 的 net 模块)注入进系统网路库,达到双端网络架构统一,能力复用。
===============
请问android上是使用自定义的URLStreamHandlerFactory吗,AOP体现在什么地方
2019-03-29 10:42
回复
没有更多了
发现更多内容

HashMap为什么是线程不安全的?

Java技术精选

APM领域国产化先锋!博睿数据与麒麟、统信、中科方德完成兼容性认证

博睿数据

活动推荐 | 云原生社区 Meetup 第七期深圳站开始报名啦!

CODING DevOps

Kubernetes DevOps 微服务 活动 Meetup

北鲲云超算平台赋能蛋白设计助推生物制药行业发展

北鲲云

关系型数据库,NoSQL数据库,NewSQL数据库权威整理

hanaper

Redis 6.0 多线程重磅发布!来了解一下吧

Linux服务器开发

数据库 redis 网络编程 Linux服务器开发 单线程

消息系统的演进:从MOM、ESB到下一代云原生的分布式消息系统

金蝶天燕云

分布式消息

广告机主板定制方案能实现双屏异显或四屏异显吗?

双赞工控

安卓主板 主板定制 广告机主板

内核模式(Kernel Mode)vs 用户模式(User Mode)

飞鸟

恰逢金九银十!阿里P8连夜赶稿一份基于实例驱动的设计模式笔记

Java 编程 架构 面试 阿里

Python代码阅读(第25篇):将多行字符串拆分成列表

Felix

编程 Code Programing 阅读代码 -python

微信开源PhxQueue:高可用、高可靠、高性能的分布式队列

OpenIM

各编程语言里对 Iterator 进行修改时的对比

BlockQuant

Java Python rust Go 语言

用数据搭建反馈系统

石云升

数据分析 9月日更

微信亿级用户异常检测框架的设计与实践

OpenIM

白嫖!一口总结了金九银十(P5-P7级)1000多道Java面试题,20+大厂必考点及Java面试框架知识点!

Java 程序员 架构 面试 计算机

多租户是一种技术

金蝶天燕云

多租户

老板:把系统从单体架构升级到集群架构!

程序员 架构 分布式 后端 计算机

justswap市值管理机器人系统软件开发技术(案例搭建)

量化系统19942438797

交易所 做市机器人 justswap

计算机工业的生态链(一)

姬翔

9月日更

白瞟党福音!Alibaba内部最新Java开发手册(嵩山版)灵魂17问

Java 编程 架构 面试 架构师

5 款阿里常用代码检测工具,免费用!

阿里巴巴云原生

阿里云 云原生 云效

我们是如何在研发过程中控制质量的?产品质量正变得越来越重要

爱数技术范儿

大数据 软件工程

PhxSQL设计与实现(详细版)

OpenIM

架构实战营模块 7 作业指导

华仔

架构实战营

腾讯云签约广州知识城商用密码项目,助力黄建设密码产业示范区

腾讯安全云鼎实验室

腾讯云 商用密码

五行兼备:联想TruScale服务的太极之道

脑极体

webrtc NACK与RTX

webrtc developer

WebRTC NACK

熬了3天2夜,啃完阿里(珠峰版)Java面试笔记,直接斩获12家大厂offer,

Java架构师迁哥

你们想知道的一切,都在这里了。

ApacheDoris

Apache 开源社区

博睿数据云主机性能评测新增6家云厂商,8月报告亚马逊云科技登榜首

博睿数据

百度App网络深度优化系列(二):连接优化_移动_蔡锐_InfoQ精选文章