写点什么

HTTP 客户端演进之路

  • 2021-11-24
  • 本文字数:4145 字

    阅读完需:约 14 分钟

HTTP客户端演进之路

HTTP 协议可能是现在 Internet 上使用得最多、最重要的协议了,越来越多应用程序需要直接通过 HTTP 协议来访问网络资源。一般的情况下我们都是使用浏览器来访问一个 WEB 服务器,用来浏览页面查看信息或者提交一些数据、文件上传下载等等。不通过浏览器来访问服务器的资源呢?一种常见的场景是,通过向另一个 http 服务器发送请求,获得数据。最常规的做法是使用同步 http 请求的方式,即下文展示的同步模式。


场景 1:向服务端 URL_STR 提交了 nixian ,handsome 的账户密码,并且附件了名称为 LOCALFILE 说明文档。下文以及代码实现无特别说明参照该场景,模式演进和原理无特别说明以 Apache HTTP Client 的解决方案作为参考。


在追求高性能 HTTP 客户端的实践中,我们从同步模式,异步模式演进到极致模式,并开源了极致模式客户端框架 besthttp,在“场景 1”的检测中,其性能 10+倍优于同步模式。


一、表单模式,面向浏览器


<input type="text" name="userName" value="nixian">

<input type="text" name="password" value="handsome">

<input type="file" name="fileBody" value="LOCALFILE">


二、 同步模式,解决网络交互


客户端发送 http 请求是串行的,也就是第一个请求未完成的情况下,第二个请求发不出去,请求按照提交的顺序发送给服务端。引入多线程提高并发性,然而多线程对并发发送 http 请求的性能提升也是有限的,比如 10 个线程同时只能发送 10 个请求,假如每个请求从发送到得到结果的时间是 1 秒,那么 10 个线程每秒钟也只能发送 10 个请求,而线程数量收到系统资源的约束,因此多线程并不能很好的解决客户端高并发发送请求的问题。


即使把多线程转换成线程池的模式,那么使用同步 http 时,在高并发场景下,线程池的队列中会堆积大量请求任务发不出去,而被请求的目标服务器,却还远没有达到瓶颈。



另外,对于发送请求的主体是阻塞的,即使与响应请求无依赖的逻辑也被阻塞。想要让发送请求与无关联的逻辑并行,需要开辟新的线程,这与上面的情况类似,线程的控制增加了代码维护难度和系统不稳定的风险。


三、异步模式 ,面向高并发



异步模式可以帮助构建高性能的客户端,数据通过更快和无阻塞方式的发送服务端,逼近服务端处理的能力,系统性能的上限由客户端转移至服务端,而服务端通常有更好的扩展性。异步模式提供重要的措施一是无阻塞,另外一个措施是是零拷贝。如何实现无阻塞,目前大部分异步模式的组件使用非阻塞 I/O 模型。同步模式下的业务线程负责发送->阻塞等待->返回->业务处理,异步模式的 I/O 模型固定的 IO 线程负责发送/接受响应,业务线程负责业务逻辑,清晰的分工意味更高效的配合。


IO 线程委托给操作系统调度,成千上万连接可以同时进行,充分利用系统资源和原本等待返回的时间,而不是空等啥都干不了。同步模式中请求的发送的逻辑是把数据包按字节顺序的发送到网络和物理线路上,异步模式注册“写就绪”事件立即返回。http 结果,以“读就绪”事件的形式触发回调函数的响应,发送数据和处理结果是两个不同的分支,处于不同的线程上下文。事件的触发由操作系统内核同时对多个 TCP 连接监听,对已经就绪的写读事件经过分发器把读写事件源分发给 IO 线程。


发送请求和响应处理处于不同的线程上下文,主体发送完数据后,与响应没有依赖关系的业务逻辑可以方便地与响应处理并行,省去了新线程的创建,避免了系统资源峰谷变化之间的不稳定。与同步模式下 BIO + 线程池的模型相比,无限的连接的发送/接受可以被有限的线程处理,不但大量的并发连接得以处理,数据传输的效率也更高效。客户端可以在 1 秒内同时将 10 个请求发出,在处理其他业务逻辑同时处理响应的结果,如果服务端能顺利地同时处理 10 个请求,整个系统的吞吐率提高了 10 倍。



零拷贝依赖操作系统提供的“更合理的系统调用”,JAVA NIO 支持对通道和缓存的操作,在 sun.nio.ch.FileChannelImpl 提供了零拷贝的 API 。 使用 FileChannel.transferTo() 方法节约了内核空间/用户空间的频繁切换和 CPU 拷贝,基于不同的系统内核和基础组件的实现,节约了两次以上的 CPU 拷贝。



使用异步模式组件 Apache HttpAsync Client 时有几个问题:


  1. 复杂场景功能上的缺失:如无法直接的使用 FORM 表单提交功能等;

  2. 未对内存有效的控制

  3. 功能与性能无法兼顾:使用高性能 org.apache.http.nio.entity.NFileEntity 高效传输文件时无法用键值对表示发送内容。org.apache.http.nio.entity.NFileEntity 是 FileChannel.transferTo()在 HTTP 交互场景的扩展,文件内容由硬盘直接传输至网卡。

  4. 编程模型复杂:异步编程模型为了获取方法异步执行的结果,在调用后返回 future 作为程序 “交互界面”,future 抽象类定义了获取结果,是否完成交互功能等。与 future 对应的 futurecallback 是对返回的结果正确和异常的处理。多个 future 存在依赖关系时,需要级联回调与之对应的 futurecallback。HttpAsyncClient 使用 BasicFuture 作为 future 与 futurecallback 的衔接,每两个 future 的依赖需要三个对象来维系,具体场景会表现得更加复杂。


四、极致模式,最懂操作系统的 HTTP 客户端



4.1 极致的资源管理


极致模式提倡将连接,线程,内存等资源池化管理,减少系统运行时创建资源带来的性能损耗,降低开发员管理资源的风险。作为最亲近操作系统的 HTTP 客户端框架模式,可以在内存,传输路径选择适合不同场景的最佳组合,追求极致的性能表现。


极致模式继承了异步模式的所有优点,同时对提及的问题做了极致优化。在异步模式基础上,使用内存池加强对内存的缓存和回收,同时支持对堆内内存,直接内存以及自定义内存的托管。HTTP 交互有丰富且复杂的场景,不同场景之下选择不同的内存控制方案结合“拷贝”最少路径进一步提高场景方案的数据传输效率。内存自定义比较普遍存在于接受 HTTP 响应时,无法预先知晓报文的大小,既要对内存缓存,又要支持内存的自动扩张以容纳不可预料的内容,在内容使用后回收。另外一个优势是,将内存资源和连接资源进行解耦,报文数据被托管缓存后就立即释放连接,避免不及时消费导致内存和连接相互纠缠而泄露。


无论同步模式还是异步模式,Apache HTTP 解决方案体系都提供了对连接池的支持。连接池有助于提高网络资源的使用效率,但也引来一个极具挑战性的问题,即可能从池中获取一个不可用的连接。相对自身可控的关闭,服务端的单方面的关闭和网络异常显得随机很多,从池中获取的连接不可用的概率也随之增大。所以选择连接池化时,会单独开辟线程来检测所有连接的可用性,淘汰不可用的连接。


但这远远不够,一方面因为检测线程执行的间歇性会有一定的滞后,另一方面刚分配的可用连接下一刻也可能随机不可用了。极致模式如何进一步提供连接的可用性?在获取连接后与发送前的时间点上,会再一次检查连接的可用性,发现连接不用时,重新申请新的连接作为该连接的副本,可用副本会替换不可用的连接做接下来的事情,完成整个交互流程后所有副本和第一次获取的连接作为整体共同释放。正是对网络资源这样的管理,使得连接几乎达到 100% 的可用性,同时避免因为连接不可用导致整个业务的流程的阻塞或者将重试交给业务代码。


4.2 极致的零拷贝



同步模式下会将文本内容和文件内容无差别地加载至堆内内存,经发送缓冲区传输到物理网络链路。文件经过磁盘加载至内核空间,再将内核空间的数据拷贝到程序运行空间,经过程序再次拷贝回内核空间,交给网卡发送到物理链路,如果文件内容比较大,这是个很耗时间和空间的过程。幸运的是,操作系统提供一些更合理的系统调用,将文件内容从磁盘直接发送到发送缓冲区,避免冗余的数据拷贝。


同样,文本内容也存在一些“性能损失”,发送的首部时,有个首部 Content-Length:16700,为了计算整个发送报文的长度,只能把全部内容提前加载的内存累加统计。当首部发送完,内容体正式发送时,需要再次把文本的内容加载到内存。将其中的部分内容进行缓存,内容体发送时,直接从缓存中获取,对整个发送报文,是一个混合数据流,针对性质不同的内容扩展不同的优化方式,充分发挥不同的流传输的优点,目的都是尽可能地减少数据的拷贝,在“场景 1” 中有四种分别来自缓存流,文件流,内存流的数据源。



4.3 极致的非阻塞



同步模式网络交互和业务逻辑都是阻塞的;异步模式网络交互是非阻塞的,业务逻辑通过扩展 future 实现异步化,当业务逻辑本身存在多个层次依赖时,代码组织变得很复杂。为了简化,常常阻塞网络获得响应结果,同时牺牲了性能。为了追求业务逻辑的足够异步化同时使编程模型简单,极致模式定义了网络交互的事件链模型。一个层次的业务逻辑对应一个 Call,网络交互返回唯一的 Back,Back 提供两个 API :thencall ,thcallAsync 。 thencall 自动将其内部逻辑封装成 Call 并且触发执行或者由 Back 触发执行。thcallAsync 切换线程的上下文,将 Call 的内部逻辑交给内置线程池完成。事件链的模型使得编码更加轻松,开发人员只关心内部逻辑的实现而不关心处于何种状态和模型下,更重要的是事件链的模型更好的保持了 NIO 的异步性,使得业务逻辑成为 TCP 双管道特性的延伸。


极致的性能不只是发挥 TCP 性能的优势,还结合了上层逻辑并发控制。模型主要定义两种之间的关系:位置关系和依赖关系。如上图,Back 是 Call A ,Call D 的依赖 Call,Call A 是 Call B,Call C 的依赖 Call。Call D 是 Call E 的前驱 Call,是一种位置关系。Call A 可以与 Call D 并行,Call B 与 Call C 可以并行,Back 的完成可以驱动 Call A,D。位置关系影响 Call 执行的顺序,依赖关系是 Call 执行的条件。事件链模型本质是并发控制的框架,赋予获取网络结果后的业务逻辑的并发和传导能力。无网络交互的场景下也可以使用事件链模型,这对整个系统的代码维护很有帮助。


 

I/O 模型

线程模型

内存模型

编程模型

特点

代表组件

同步模式

阻塞IO

单线程

堆内存

同步轮询

简单,性能差

apache httpclient

异步模式

多路复用

多主Reactor

堆内存

事件驱动

高并发,逻辑复杂

apache

httpasyncclient

极致模式

多路复用

多主/灵活

内存池

事件链

极致性能,编程友好

besthttp


文章代码主要使用组件的 MAVEN 坐标

【同步模式】

<groupId>org.apache.httpcomponents</groupId>

<artifactId>httpclient</artifactId>

<version>4.5.6</version>

【异步模式】

<groupId>org.apache.httpcomponents</groupId>

<artifactId>httpasyncclient</artifactId>

<version>4.1.4</version>

【极致模式】

<groupId>io.github.nixiantongxue</groupId>

<artifactId>nio-http</artifactId>

<version>0.1.23-release</version>


作者简介:

尼先,苏宁 IT 总部,高级架构师,在线办公产品矩阵技术负责人。关注技术理论和实践持续探讨以及云时代企业信息流协作,安全,重塑的产品变革。

2021-11-24 17:425326

评论 3 条评论

发布
用户头像
bb half day,show u code
2021-11-25 15:31
回复
用户头像
测试
2021-11-25 11:34
回复
没有更多了
发现更多内容

惨遭面试官吊打高并发系统设计,回来学习2400小时后成功复仇

Java架构追梦

Java 后端开发 程序员面试

Spring data JPA实践和原理浅析

领创集团Advance Intelligence Group

工作原理 java Spring JPA

一文搞定 Flutter 文件下载和管理

岛上码农

flutter 跨平台 安卓开发 ios 开发 5月月更

代码历史上最昂贵的 7 个错误

禅道项目管理

测试 代码

易周金融观点 央行设立科技创新再贷款;多家银行下调大额存单利率

易观分析

金融 银行

Tech Talk 宣传 | 如何高效、极简构造无服务器 Web 应用

亚马逊云科技 (Amazon Web Services)

Web

Linux多线程-概念及控制

可口也可樂

c++ Linux 后端

2022年4月国产数据库大事记

墨天轮

数据库 opengauss TiDB 国产数据库 达梦

Apache Calcite SQL解析及语法扩展

不穿格子衬衫的程序员

数据库 sql 大数据 flink Apache Calcite

量子计算是人工智能的未来吗?

海拥(haiyong.site)

人工智能 量子计算 5月月更

易观分析刘怡:技术投入聚焦降本增效,用技术赋能人提升企业能效

易观分析

人口变化 技术赋能

Git 安装及配置

Emperor_LawD

git 基础 5月月更

想要成为一名真正的软件工程师吗?加入非凸,一起升级!

非凸科技

招聘 社招 校招 软件开发工程师

使用APICloud AVM框架实现App导航栏菜单

YonBuilder低代码开发平台

APP开发 APICloud avm.js

谁在从API经济里分得一杯羹!

Liam

Postman API API Explorer平台 API boy 开放api

InfoQ AI开发者召集令!快来助力中国AI产业发展,参与抽奖!

InfoQ写作社区官方

AI 热门活动 白玉兰开源

Alibaba最新出版的JDK源码剖析手册(究极奥义版)开源

Java架构追梦

jdk java面试 后端开发

为 GPU 而来,焱融科技推出新一代全闪分布式文件存储产品

焱融科技

人工智能 云计算 高性能 文件存储 高计算

博睿数据获得分布式系统稳定性实验室成员单位证书 亮相全球信息系统稳定性峰会

博睿数据

攻克编译器技术(2)

刘旭东

源代码 编译器原理 5月月更

开源之夏 2022 重磅来袭!欢迎报名 RadonDB 社区项目!

RadonDB

数据库 开源 RadonDB 开源之夏

认清大脑中的一对塑料姐妹花,科学解锁情绪密码

图灵教育

效率 职场 脑科学

不仅仅是自动化,DevOps 测试工具推荐

飞算JavaAI开发助手

真可笑!拿着这份JVM学习笔记学了2个月,就想着出去跳槽涨10k

Java架构追梦

Java 程序员 后端开发

淘宝京东优惠券返利机器人

江苏京酷电子商务有限公司

淘宝电商 群聊机器人 返利 采集京东

OceanBase 3.2.3 发版|HTAP引擎全面升级,TPC-H性能10倍提升!

OceanBase 数据库

oceanbase

【愚公系列】2022 年 05 月 二十三种设计模式(五)-单例模式(Singleton Pattern)

愚公搬代码

5月月更

Q1手机银行运营报告:交易规模超150万亿,月活跃用户4.9亿

易观分析

手机银行

LAXCUS分布式操作系统:云盘的使用

LAXCUS分布式操作系统

云盘 分布式存储 分布式软件系统

浅谈TCP和UDP协议

工程师日月

5月月更

OneFlow如何做静态图的算子对齐任务

OneFlow

人工智能 graph 自动测试 算子对齐

HTTP客户端演进之路_语言 & 开发_尼先_InfoQ精选文章