写点什么

为什么 TCP 协议有 TIME_WAIT 状态

  • 2020-03-20
  • 本文字数:3661 字

    阅读完需:约 12 分钟

为什么 TCP 协议有 TIME_WAIT 状态

为什么这么设计(Why’s THE Design)是一系列关于计算机领域中程序设计决策的文章,我们在这个系列的每一篇文章中都会提出一个具体的问题并从不同的角度讨论这种设计的优缺点、对具体实现造成的影响。


在这个系列前面的文章中,我们已经多次讨论 TCP 协议的设计原理,其中包括 TCP 协议的 三次握手流量控制和重传机制最大数据段 以及 粘包 等问题。本文将继续分析 TCP 协议的实现细节,今天要分析的问题是为什么 TCP 协议需要 TIME_WAIT 状态以及该状态的作用究竟是什么。


TCP 协议中包含 11 种不同的状态,TCP 连接会根据发送或者接收到的消息转换状态,如下图所示的状态机展示了所有可能的转换,其中不仅包含了正常情况下的状态转换过程,还包含了异常状态下的状态转换:



图 1 - TCP 协议状态


使用 TCP 协议通信的双方会在关闭连接时触发 TIME_WAIT 状态,关闭连接的操作其实是告诉通信的另一方自己没有需要发送的数据,但是它仍然保持了接收对方数据的能力,一个常见的关闭连接过程如下1


  1. 当客户端没有待发送的数据时,它会向服务端发送 FIN 消息,发送消息后会进入 FIN_WAIT_1 状态;

  2. 服务端接收到客户端的 FIN 消息后,会进入 CLOSE_WAIT 状态并向客户端发送 ACK 消息,客户端接收到 ACK 消息时会进入 FIN_WAIT_2 状态;

  3. 当服务端没有待发送的数据时,服务端会向客户端发送 FIN 消息;

  4. 客户端接收到 FIN 消息后,会进入 TIME_WAIT 状态并向服务端发送 ACK 消息,服务端收到后会进入 CLOSED 状态;

  5. 客户端等待两个最大数据段生命周期(Maximum segment lifetime,MSL)2的时间后也会进入 CLOSED 状态;



图 2 - TCP 关闭连接的过程


从上述过程中,我们会发现 TIME_WAIT 仅在主动断开连接的一方出现,被动断开连接的一方会直接进入 CLOSED 状态,进入 TIME_WAIT 的客户端需要等待 2 MSL 才可以真正关闭连接。TCP 协议需要 TIME_WAIT 状态的原因和客户端需要等待两个 MSL 不能直接进入 CLOSED 状态的原因是一样的3


  • 防止延迟的数据段被其他使用相同源地址、源端口、目的地址以及目的端口的 TCP 连接收到;

  • 保证 TCP 连接的远程被正确关闭,即等待被动关闭连接的一方收到 FIN 对应的 ACK 消息;


上述两个原因都相对比较简单,我们来展开介绍这两个原因背后可能存在的一些问题。

阻止延迟数据段

每一个 TCP 数据段都包含唯一的序列号,这个序列号能够保证 TCP 协议的可靠性和顺序性,在不考虑序列号溢出归零的情况下,序列号唯一是 TCP 协议中的重要约定,一旦违反了这条规则,就可能造成令人困惑的现象和结果。为了保证新 TCP 连接的数据段不会与还在网络中传输的历史连接的数据段重复,TCP 连接在分配新的序列号之前需要至少静默数据段在网络中能够存活的最长时间,即 MSL4


To be sure that a TCP does not create a segment that carries a sequence number which may be duplicated by an old segment remaining in the network, the TCP must keep quiet for a maximum segment lifetime (MSL) before assigning any sequence numbers upon starting up or recovering from a crash in which memory of sequence numbers in use was lost.



图 3 - TIME-WAIT 较短导致的数据段延迟接收


在如上图所示的 TCP 连接中,服务端发送的 SEQ = 301 消息由于网络延迟直到 TCP 连接关闭后也没有收到;当使用相同端口号的 TCP 连接被重用后,SEQ = 301 的消息才发送到客户端,然而这个过期的消息却可能被客户端正常接收,这就会带来比较严重的问题,所以我们在调整 TIME_WAIT 策略时要非常谨慎,必须清楚自己在干什么。


RFC 793 中虽然指出了 TCP 连接需要在 TIME_WAIT 中等待 2 倍的 MSL,但是并没有解释清楚这里的两倍是从何而来,比较合理的解释是 — 网络中可能存在来自发起方的数据段,当这些发起方的数据段被服务端处理后又会向客户端发送响应,所以一来一回需要等待 2 倍的时间5


RFC 793 文档将 MSL 的时间设置为 120 秒,即两分钟,然而这并不是一个经过严密推断的数值,而是工程上的选择,如果根据服务历史上的经验要求我们改变操作系统的设置,也是没有任何问题的;实际上,较早版本的 Linux 就开始将 TIME_WAIT 的等待时间 TCP_TIMEWAIT_LEN 设置成 60 秒,以便更快地复用 TCP 连接资源:


C


#define TCP_TIMEWAIT_LEN (60*HZ) /* how long to wait to destroy TIME-WAIT          * state, about 60 seconds  */
复制代码


在 Linux 上,客户端的可以使用端口号 32,768 ~ 61,000,总共 28,232 个端口号与远程服务器建立连接,应用程序可以在将近 3 万的端口号中任意选择一个:


$ sysctl net.ipv4.ip_local_port_rangenet.ipv4.ip_local_port_range = 32768 61000
复制代码


但是如果主机在过去一分钟时间内创建的 TCP 连接数超过 28,232,那么再创建新的 TCP 连接就会发生错误,也就是说如果我们不调整主机的配置,那么每秒能够建立的最大 TCP 连接数为 ~4706

保证连接关闭

从 RFC 793 对 TIME_WAIT 状态的定义中,我们可以发现该状态的另一个重要作用,等待足够长的时间以确定远程的 TCP 连接接收到了其发出的终止连接消息 FIN 对应的 ACK


TIME-WAIT - represents waiting for enough time to pass to be sure the remote TCP received the acknowledgment of its connection termination request.


如果客户端等待的时间不够长,当服务端还没有收到 ACK 消息时,客户端就重新与服务端建立 TCP 连接就会造成以下问题 — 服务端因为没有收到 ACK 消息,所以仍然认为当前连接是合法的,客户端重新发送 SYN 消息请求握手时会收到服务端的 RST 消息,连接建立的过程就会被终止。



图 4 - TIME-WAIT 较短导致的握手终止


在默认情况下,如果客户端等待足够长的时间就会遇到以下两种情况:


  1. 服务端正常收到了 ACK 消息并关闭当前 TCP 连接;

  2. 服务端没有收到 ACK 消息,重新发送 FIN 关闭连接并等待新的 ACK 消息;


只要客户端等待 2 MSL 的时间,客户端和服务端之间的连接就会正常关闭,新创建的 TCP 连接收到影响的概率也微乎其微,保证了数据传输的可靠性。

总结

在某些场景下,60 秒的等待销毁时间确实是难以接受的,例如:高并发的压力测试。当我们通过并发请求测试远程服务的吞吐量和延迟时,本地就可能产生大量处于 TIME_WAIT 状态的 TCP 连接,在 macOS 上可以使用如下所示的命令查看活跃的连接:


$ netstat -tanActive Internet connections (including servers)Proto Recv-Q Send-Q  Local Address          Foreign Address        (state)tcp4       0      0  192.168.50.109.51284   47.95.49.174.443       TIME_WAITtcp4       0      0  192.168.50.109.51275   47.95.49.174.443       TIME_WAIT...tcp4       0      0  192.168.50.109.51273   203.107.32.116.443     TIME_WAITtcp4       0      0  192.168.50.109.51293   203.107.32.116.443     TIME_WAITtcp4       0      0  192.168.50.109.51297   203.107.32.116.443     TIME_WAIT...
复制代码


当我们在主机上通过几千个并发来测试服务器的压力时,这些用于压力测试的连接会迅速消耗主机上的 TCP 连接资源,几乎所有的 TCP 都会处于 TIME_WAIT 状态等待销毁。如果我们真遇到不得不处理单机上的 TIME_WAIT 状态的时候,那么可以通过以下几种方法处理:


  1. 使用 SO_LINGER 选项并设置暂存时间 l_linger 为 0,在这时如果我们关闭 TCP 连接,内核就会直接丢弃缓冲区中的全部数据并向服务端发送 RST 消息直接终止当前的连接7

  2. 使用 net.ipv4.tcp_tw_reuse 选项,通过 TCP 的时间戳选项允许内核重用处于 TIME_WAIT 状态的 TCP 连接8

  3. 修改 net.ipv4.ip_local_port_range 选项中的可用端口范围,增加可同时存在的 TCP 连接数上限;


需要注意的是,另一个常见的 TCP 配置项 net.ipv4.tcp_tw_recycle 已经在 Linux 4.12 中移除9,所以我们不能再通过该配置解决 TIME_WAIT 设计带来的问题。


TCP 的 TIME_WAIT 状态有着非常重要的作用,它是保证 TCP 协议可靠性不可缺失的设计,如果能通过加机器解决的话就尽量加机器,如果不能解决的话,我们就需要理解其背后的设计原理并尽可能避免修改默认的配置,就像 Linux 手册中说的一样,在修改这些配置时应该咨询技术专家的建议;在这里,我们再重新回顾一下 TCP 协议中 TIME_WAIT 状态存在的原因,如果客户端等待的时间不够长,那么使用相同端口号重新与远程建立连接时会造成以下问题:


  • 因为数据段的网络传输时间不确定,所以可能会收到上一次 TCP 连接中未被收到的数据段;

  • 因为客户端发出的 ACK 可能还没有被服务端接收,服务端可能还处于 LAST_ACK 状态,所以它会回复 RST 消息终止新连接的建立;


TIME_WAIT 状态是 TCP 与不确定的网络延迟斗争的结果,而不确定性是 TCP 协议在保证可靠这条路的最大阻碍。到最后,我们还是来看一些比较开放的相关问题,有兴趣的读者可以仔细思考一下下面的问题:


  • net.ipv4.tcp_tw_reuse 配置如何通过时间戳保证重用 TCP 连接的相对安全?

  • net.ipv4.tcp_tw_recycle 配置为什么被 Linux 从协议栈中移除?


本文转载 Draveness 技术网站。


原文链接:https://draveness.me/whys-the-design-tcp-time-wait


2020-03-20 21:291101

评论

发布
暂无评论
  • git(1) 起步

    所以,我们可以从文件所处的位置来判断状态:如果是 Git 目录中保存着的特定版本文件,就属于已提交状态;如果作了修改并已放入暂存区域,就属于已暂存状态;如果自上次取出后,作了修改但还没有放到暂存区域,就是已修改状态。到第二章的时候,我们会进一步

    2022-04-24

  • iOS 优雅的处理网络数据,你真的会吗?不如看看这篇.

    相信大家平时在用 App 的时候, 往往有过这样的体验,那就是加载网络数据等待的时间过于漫长,滚动浏览时伴随着卡顿,甚至在没有网络的情况下,整个应用处于不可用状态。那么我们该怎么去提高用户体验,保证用户没有漫长的等待感,还可以轻松自在的享受等待,

    2021-09-24

  • [译]TIME_WAIT 及其对协议和可伸缩客户端服务器系统的设计实现

    当构建基于 TCP 的 C/S系统的时候,非常容易犯一些简单的错误,这些错误会严重限制系统的可伸缩性。其中之一就是对 TIME_WAIT 状态疏于考虑。在此博客文章中,我将说明 TIME_WAIT 存在的原因、它可能引起的问题、该如何解决它以及何时不应该考虑解决它。

    2023-03-15

  • 当 TIME_WAIT 状态的 TCP 正常挥手,收到 SYN 后…

    今天就来讨论下这个问题,在TCP正常挥手过程中,处于TIME_WAIT状态的连接,收到相同四元组的SYN后会发生什么?

    2022-03-03

  • 数字经济的重要基石——数据安全

    数据安全是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。

    2022-03-26

  • 函数定义

    2022-12-29

  • React 源码分析 8- 状态更新的优先级机制

    优先级机制最终目的是为了实现高优先级任务优先执行,低优先级任务延后执行。

    2022-10-13

  • 【Netty】「萌新入门」(三)ChannelFuture 与 CloseFuture

    本篇博文是《从0到1学习 Netty》中入门系列的第三篇博文,主要内容是介绍 Netty 中 ChannelFuture 与 CloseFuture 的使用,解决连接问题与关闭问题;

  • 2. 如何设计高性能架构

    2023-09-25

  • 五月,开篇

    时间已到五月三日,确刚刚准备做这个月的开篇。过去的一个多月估计会是难忘的经历。职业生涯依赖脱离工作状态最久的一次,期间每天从早到晚的反思、整理、深入、探究,很煎熬,却也收获了不少。作为开篇,整理如下。

    2021-05-03

  • 自助洗车机洗车怎么收费和付费

    一般情况下,自助洗车机洗车都是按时计费的,也就是说洗的越快费用就越低,洗的越久费用也会越高。不过根据广大车主的洗车时间来看,大多都是付了8-15元左右,洗车时间大多也都在10-20分钟这样。

    2022-06-15

  • GPT-4:不了不了,这些我还做不到

    还有什么是GPT-4玩不了的?

    2023-03-16

  • 状态机的概念与设计

    一般情况下,状态触发器的数量是有限的,其状态数也是有限的,故称为有限状态机(Finite State Machine,简称为FSM)。状态机中所有触发器的时钟输入端被连接到一个公共时钟脉冲源上,其状态的转换是在同一时钟源的同一脉冲边沿同步进行的,所以它也被称作时

    2023-02-09

  • 47. 用户中心 (3)

    2023-09-30

  • 表结构数据详解(下)

    2022-12-29

  • One-on-One Meeting

    极客时间《朱赟的技术管理课》学习笔记 04

    2021-05-31

  • 16. 怎样做技术选型

    2023-09-30

  • 浅说 TCP 状态机制

    TCP(Transmission Control Protocol)是一种面向连接的、可靠的传输协议,常用于互联网中应用层的数据传输。在协议栈中,TCP处于传输层,负责数据的分段、传输和重组等工作,同时采用状态机制来维护连接的状态。

    2023-07-20

  • 12|如何自动检查业务真实的健康状态?

    这节课,我会首先带你学习 Pod 的状态机制,然后通过示例应用,进一步介绍怎么为工作负载配置健康检查。

    2023-01-04

  • 长安链 tls 基础研究

    本文已参与「开源摘星计划」,欢迎正在阅读的你加入。活动链接:https://github.com/weopenprojects/WeOpen-Star

    2022-07-16

发现更多内容

亚马逊AI选择各种商品的最佳包装方式,节省大量包装材料

算AI

人工智能 深度学习 AI

初级Go工程师训练营毕业总结

想吃烤肉!

总结 心得体会

数据统一高效管理 HashData支撑“数智石油”高质量发展

酷克数据HashData

《containerd 系列》一文了解 containerd 中的 snapshot

公众号:云原生Serverless

Kubernetes 云原生 容器技术 ,docker Containerd

【论文速读】|理解基于大语言模型的模糊测试驱动程序生成

云起无垠

手把手教你使用ChatGPT写论文;如何使用ChatGPT写论文?

蓉蓉

openai ChatGPT GPT-4

Apache RocketMQ ACL 2.0 全新升级

阿里巴巴云原生

阿里云 云原生 Apache RocketMQ

开放签:引领中小微企业步入电子签章普惠时代

开放签开源电子签章

电子合同 电子签章 开放签

CyberData统一元数据服务

数新网络官方账号

大数据

《containerd 系列》一文了解 containerd 中的镜像加解密

公众号:云原生Serverless

Docker 云原生 ,docker Docker 镜像 Containerd

前端到全栈进阶之“前端框架”

高端章鱼哥

京东JD商品详情API返回值全面解析

技术冰糖葫芦

api 货币化 API 接口 API 文档 pinduoduo API

抖音商单信息通过ETL工具快速同步

RestCloud

数据处理 抖音 数据同步 ETL

重庆兴农担保集团携手嘉为蓝鲸,锻造运维能力底座,精益信息化管理

嘉为蓝鲸

IT运维 自动化运维 嘉为蓝鲸

《containerd 系列》【史上最全】带你全方位了解containerd 的几种插件扩展模式

公众号:云原生Serverless

Docker Kubernetes 云原生 容器技术 Containerd

《containerd 系列》作为资深 CRUD Boy,你知道 containerd 是如何保存容器元数据的吗?

公众号:云原生Serverless

Docker Kubernetes 云原生 容器技术 Containerd

构建高效的商品计划系统:为品牌增长注入新动力

第七在线

Nacos 安全零信任实践

阿里巴巴云原生

阿里云 云原生 nacos

采集 Kubernetes 容器日志最佳实践

观测云

#Kubernetes#

语雀迁移支付宝云开发:安全与弹性双重升级,开启业务发展新篇章

TRaaS

小程序云开发 云开发 语雀

鸟瞰图技术重塑大屏视觉体验:点量云流创新应用

点量实时云渲染

云渲染 虚拟现实 实时云渲染 大屏展示 鸟瞰图

《containerd 系列》一文缕清 CRI 的发展脉络

公众号:云原生Serverless

Docker Kubernetes 云原生 容器技术 Containerd

《containerd 系列》一文读懂 containerd 中的 NRI 机制

公众号:云原生Serverless

Docker Kubernetes 容器技术 Containerd NRI

为什么 TCP 协议有 TIME_WAIT 状态_文化 & 方法_Draveness_InfoQ精选文章