写点什么

UCloud 基于 Linux 内核新特性的下一代外网网关设计及相关开源工作

  • 2019-11-11
  • 本文字数:4494 字

    阅读完需:约 15 分钟

UCloud基于Linux内核新特性的下一代外网网关设计及相关开源工作

UCloud 外网网关是为了承载外网 IP、负载均衡等产品的外网出入向流量,当前基于 Linux 内核的 OVS/GRE tunnel/netns/iptables 等实现,很好地支撑了现有业务。同时,我们也在不断跟踪开源社区的新技术发展,并将之用于下一代外网网关的设计。这些新特性可将系统性能和管理能力再提上一档,满足未来几年的需求。在方案设计研发过程中发现,新特性存在不少缺陷和 Bug,为此我们向开源社区回馈了 10 多个 patch,并融入到 kernel 5.0 版本中,帮助完善 kernel 功能并提升稳定性。


当前业界的多租户外网网关很多都是基于 OpenFlow 的 OpenvSwitch(OVS)方案,然而随着内核路由转发功能的不断完善,利用内核原生路由转发方式进行设计多租户外网网关系统成为一种可能。在这种方式下能有效的使用传统 iproute2 路由工具以及 iptables、nftables 等 Firewall 工具,并且随着 SwitchDev 技术的兴起,未来将网关系统迁移到 Linux Switch 上也成为一种可能。

现有 kernel 3.x 的不足

当前广泛使用的内核版本为 3.x 系列,例如 CentOS 7 全系列标准支持的内核为 3.10 版本,Fedora/Ubuntu 等 Linux 发行版也有大量使用。在 3.x 系列内核下存在着 IP tunnel 管理复杂、租户隔离性能损耗等问题。

1. IP tunnel 管理复杂

Linux 内核创建 IP tunnel 设备来建立点对点的隧道连接,创建时需指定 tunnel dst 和 tunnel key。因为宿主机之间两两建立连接,面向宿主机的目的地址众多,这样就会导致网关节点上需要创建成千上万的 tunnel 设备,在大规模业务环境下,tunnel 的管理将变得及其复杂。

2. 多租户隔离导致的性能下降

a. 公有云需要实现多租户隔离以确保用户间的安全和隐私。由于 VPC 网络下不同租户的内网地址可以重合,导致路由也有重合的可能性,此时需要通过大量的策略路由去隔离租户的路由规则,由于策略路由的链表属性,性能会随着链表长度的增加而急剧下降。


b. 由于 Firewall 和 NAT 的实现基于同样链式的 iptables,性能损耗同样可观。

3. netns 带来性能开销

通过 netns 实现租户路由和 Firewall 规则的隔离,但是 netns 会引入虚拟网卡和协议栈重入开销,使整体性能下降 20%左右。

三项内核新技术

为了解决原有方案存在的困扰,我们调研了大量行业主流方案和内核上游的新动向,发现 Lightweight tunneling(轻量级隧道,简称 lwtunnel)、Virtual Routing Forwarding(虚拟路由转发,简称 VRF)以及 nftable & netfilter flow offload(流卸载)三项内核新技术的特性,可以帮助规避原方案存在的缺陷。

1. Lightweight tunneling

Linux 内核在 4.3 版本中引入了轻量级隧道 Lightweight tunneling,它提供了通过 route 方式设置 tunnel 属性的方法,这样可以避免管理大量的 tunnel 设备。


创建隧道设备时指定 external 模式,利用路由设置的轻量级隧道通过 tun 设备发送报文。


2. Virtual Routing Forwarding

Linux 内核在 4.3 版本中引入了 VRF 的初步支持,并在 4.8 版本形成完备版本。Virtual Routing Forwarding 虚拟路由转发,可以将一台 Linux Box 的物理路由器当多台虚拟路由器使用,能很好的解决租户路由隔离问题,避免直接使用策略路由。因此,可以将不同租户的网卡加入租户所属的虚拟路由器中来实现多租户的虚拟路由。



3. flow offload

Nftables 是一种新的数据包分类框架,旨在替代现存的{ip,ip6,arp,eb}_tables。在 nftables 中,大部分工作是在用户态完成的,内核只知道一些基本指令(过滤是用伪状态机实现的)。nftables 的一个高级特性就是映射,可以使用不同类型的数据并映射它们。例如,我们可以映射 iif device 到专用的规则集合(之前创建的存储在一个链中)。由于是 hash 映射的方式,可以完美的避免链式规则跳转的性能开销。


Linux 内核在版本 4.16 引入了 flow offload 功能,它为 IP forward 提供了基于流的卸载功能。当一条新建连接完成首回合原方向和反方向的报文时,完成路由,Firewall 和 NAT 工作后,在处理反方向首报文的 forward hook,根据报文路由、NAT 等信息创建可卸载 flow 到接收网卡 ingress hook 上。后续的报文可以在接收 ingress hook 上直接转发,不需要再进入 IP stack 处理。此外,将来 flow offload 还将支持 hardware offload 模式,这将极大提高系统转发性能。



方案设计与优化实践

通过对上述三项新技术的研究,我们发现可以尝试设计一套基于路由的方式,实现多租户 overlay 网络的外网网关。在方案设计过程中,我们也碰到了诸如 lwtunnel 和 flow offload 功能不足,以及 VRF 和 flow offload 不能一起有效的工作等问题。最终我们都设法解决了,并针对这些内核的不足提交 patch 给 Linux 开源社区。

1. lwtunnel 发送报文 tunnel_key 丢失

问题描述:我们利用 lwtunnel 路由方式发送报文时,创建了一个 external 类型的 gretap tunnel,我们将命令设置了 id 为 1000,但是发送成功报文中没有 tunnel_key 字段。



问题定位:我们研究 iproute2 代码,发现由于 TUNNEL_KEY flag 并没有开放给用户态,所以 iproute2 工具并没有对 lwtunnel 路由设置 TUNNEL_KEY,导致报文不会创建 tunnel_key 字段。


提交 patch:我们给内核和用户态 iproute2 分别提交 patch 来解决这一问题:


iptunnel: make TUNNEL_FLAGS available in uapi


iproute: Set ip/ip6 lwtunnel flags


提交 patch 后,可以通过以下方式设置路由。


ip r r 2.2.2.11 via 1.1.1.11 dev tun encap ip id 1000 dst 172.168.0.1 key
复制代码

2. lwtunnel 对指定 key 的 IP tunnel 无效

问题发现:为了能有效隔离租户路由,我们给每个租户创建一个基于 tunnel_key 的 gretap tunnel 设备。如下图,创建一个 tunnel_key 1000 的 gretap tunnel 设备,把 tunnel 设备加入租户所属 VRF,tunnel 设备能有效地接收报文,但并不能发送报文。



问题定位:研究内核发现,IP tunnel 在非 external 模式下即使指定了轻量级隧道路由,发送报文也没有使用它,导致报文路由错误被丢弃。


提交 patch:


ip_tunnel: Make none-tunnel-dst tunnel port work with lwtunnel


提交 patch 后,在未指定 tunnel_dst 的非 external 模式 IP tunnel 下,能使用轻量级隧道路由进行发送报文。

3. external IP tunnel ARP 无法正常运行

问题描述:邻居 IP tunnel 进行了 ARP 请求,但是本端的 ARP 回应报文的隧道头中并没带 tunnel_key 字段。



问题定位:研究代码发现,tunnel 收到了对端的 ARP 请求,在发送报文 ARP 回复的时候会复制请求报文的 tunnel 信息,但是遗漏了所有 tun_flags。


提交 patch:


iptunnel: Set tun_flags in the iptunnel_metadata_reply from src

4. Flow offload 不能与 DNAT 有效工作

问题描述:Firewall 创建规则从 eth0 收到目的地址 2.2.2.11 的报文,DNAT 为 10.0.0.7, flow offload 无法工作。



问题定位:分析发现,客户端 1.1.1.7 —> 2.2.2.7 DNAT 到 server 10.0.0.7,第一个 reply 反向报文(syc+ack)使用了错的目的地址获取反向路由


daddr = ct->tuplehash[!dir].tuple.dst.u3.ip
复制代码


此时 dir 为反方向,所以 daddr 获取为原方向的目的地址,这个值是 2.2.2.7, 但是由于被 DNAT 过,真正的路由不应该通过 2.2.2.7 去获取,而是应该根据 10.0.0.7 这个值去获取


addr = ct->tuplehash[dir].tuple.src.u3.ip
复制代码


提交 patch:


netfilter: nft_flow_offload: Fix reverse route lookup

5. Flow offload 不能与 VRF 有效工作

问题描述:将网卡 eth0 和 eth1 加入 VFR 后,flow offload 不起作用。



问题定位:查看代码发现,原方向和反方向首报文进入协议堆栈后 skb->dev 会设置为 vrf device user1,创建 flow offload 规则的 iif 就是 user1。但是 offload 规则下发在 eth0 和 eth1 的 ingress hook 上,所以后续报文在 eth0 和 eth1 的 ingress hook 上不能匹配 flow 规则。


提交 patch:


netfilter: nft_flow_offload: fix interaction with vrf slave device


最终,我们根据两个方向查找路由的结果,设置 flow offload 规则的 iif 和 oif 信息来解决此问题。

6. VRF PREROUTING hook 重入问题

问题描述:配置网卡加入 VRF,firewall ingress 方向规则为接收目的地址 2.2.2.11 、TCP 目的端口 22 的报文,egress 方向规则为丢弃 TCP 目的端口 22 的报文。出现异常结果: 收到目的地址 2.2.2.11 TCP 22 目的端口的报文却被丢弃。



问题定位:研究发现网卡加入 VRF 后收到的报文会两次进入 PREROUTING hook,因为在进入 IP stack 时会进第一次 PREROUTING hook,然后被 VRF 设备接管后会再次进入 PREROUTING hook。上述规则第一次在 rule-1000-ingress chain 中 dst nat 为 10.0.0.7,第二次由于报文被 DNAT 后会错误的进入 rule-1000-egress,导致报文被丢弃。


提交 patch:我们给内核加了一个支持判断网卡类型的 match 项目,让用户态避免可知的第二次无效重入,内核态和用户态 nftables 分别提交了如下的 patch:


netfilter: nft_meta: Add NFT_META_I/OIFKIND meta type


meta: add iifkind and oifkind support


使用方法:


nft add rule firewall rules-all meta iifkind "vrf" counter accept
复制代码

原型验证

最终,我们成功地利用 lwtunnel、VRF 和 flow offload 实现多租户外网网关的原型验证。验证过程如下:

1. 首先创建原型环境。

a. netns cl 模拟外网 client, 地址为 1.1.1.7,tunnel src 172.168.0.7,配置发送路由;


b. netns ns1 模拟租户 1,内网地址为 10.0.0.7,外网地址为 2.2.2.11,tunnel src 172.168.0.11 tunnel_key 1000,配置发送路由;


c. netns ns2 模拟租户 2,内网地址为 10.0.0.7,外网地址为 2.2.2.12,tunnel src 172.168.0.12 tunnel_key 2000,配置发送路由;


d. Host 模拟外网网关,tunnel src 172.168.0.1,创建租户 VRF user1 和 use2,创建租户 IP tunnel tun1 和 tun2,配置转发路由。


原型环境图如下:



2. 创建 firewall 规则:

a. 租户 1 入向允许 TCP 目的端口 22 和 ICMP 访问,出向禁止访问外部 TCP 22 目的端口;


b. 租户 2 入向允许 TCP 端口 23 和 ICMP 访问,出向禁止访问外部 TCP 23 目的端口;


c. 在租户 tun1 和 tun2 设备上支持 flow offload。



最终,client 可以通过 2.2.2.11 成功访问 user1 tcp 22 端口服务,user1 不能访问 client tcp 22 端口服务;client 可以通过 2.2.2.12 成功访问 user2 tcp 23 端口服务,user1 不能访问 client tcp 23 端口服务。


待后续 hardware offload 功能完善以及网卡厂商支持后,我们会做进一步的开发验证。

写在最后

以上是本项目涉及的部分核心问题,这些 patch 特性都可以在 Linux kernel 5.0 版本里获取。我们把这期间为 Linux kernel 社区贡献的 patch 整理成了一份列表,希望能为开发者提供帮助,读者可以点击“阅读原文”阅览完整 patch list。


Linux 作为成熟的开源套件,一直是云厂商使用的主流操作系统,但在技术的更新迭代过程中,一些新特性在实际应用上也会存在稳定性、兼容性等方面的问题。我们在研究使用上游技术的同时,也一直积极探索、丰富开源技术功能,帮助提高开源技术稳定性。并将产出持续回馈给社区,与社区共同构建一个繁荣的开源生态。


本文转载自公众号 UCloud 技术(ID:ucloud_tech)。


原文链接:


https://mp.weixin.qq.com/s/I4GSv8TBm2jBxcEUUevhHQ


2019-11-11 13:52966

评论

发布
暂无评论
发现更多内容

你还在把Java当成Android官方开发语言吗,字节跳动算法工程师总结

android 程序员 移动开发

含爱奇艺,小米,腾讯,阿里,享学课堂怎么样

android 程序员 移动开发

REST API 设计:过滤、排序和分页

devpoint

REST API 10月月更

对话凡泰极客联合创始人杨涛: 小程序生态市场潜力广阔

FinClip

小程序 金融科技 移动开发

自动驾驶 Lidar 激光雷达 易筋 ARTS 打卡 Week 73

John(易筋)

ARTS 打卡计划

央行数字货币已落地,来的太快,机遇在哪?

CECBC

Java8 Lambda表达式与Stream

风翱

Lambda 10月月更

【Quarkus技术系列】「云原生架构体系」在云原生时代下的Java“拯救者”是Quarkus,那云原生是什么呢?

洛神灬殇

云原生 Quarkus 10月月更

区块链与数字化转型携手并进

CECBC

模块一学习笔记、总结

吴霏

架构实战营 「架构实战营」

刚从阿里、头条面试回来,动脑学院课程值得买吗

android 程序员 移动开发

三国与AI,交汇在中原

脑极体

中软国际用一场自我进化,推动云市场跨入下一幕

脑极体

Leetcode 题目解析:70. 爬楼梯

程序员架构进阶

LeetCode 动态规划 算法题 10月月更

linux之xargs使用技巧

入门小站

Linux

作为一个程序员你觉得最大的悲哀是什么,安卓音视频开发

android 程序员 移动开发

史上超级详细:扔物线学堂

android 程序员 移动开发

华为云数据库内核专家为您揭秘MySQL Volcano模型迭代器性能提升千倍的秘密

华为云数据库小助手

GaussDB 华为云数据库 GaussDB(for MySQL)

这部分布式事务开山之作,凭啥第一天预售就拿下当当新书榜No.1?

冰河

数据库 分布式 分布式事务 微服务 数据一致性

做了3年Android还没看过OkHttp源码,学Android看这就完事了

android 程序员 移动开发

架构设计-电商微服务拆分

小智

架构训练营

紧张的336小时53分钟21秒,我等来了字节跳动offer(Java岗)

Java 编程 程序员 架构 面试

分享Android资深架构师的成长之路,系列篇

android 程序员 移动开发

Docker环境搭建和使用

飞鸟

Docker

聊聊产品的使用场景

石云升

场景应用 职场经验 10月月更

023云原生之Kubernetes的存储

穿过生命散发芬芳

云原生 10月月更

区块链是否正在慢慢演变为中心化的数据库?我们又该如何预防数据中心化?

CECBC

作为程序员一定不要仅仅追求物质,做了6年Android开发

android 程序员 移动开发

免费Android高级工程师学习资源,苦熬一个月

android 程序员 移动开发

什么是aPaaS?低代码与高生产率的aPaaS和RAD相比如何?

优秀

低代码 aPaaS RAD

谈一谈使用Python入门量化投资

Regan Yue

量化交易 10月月更

UCloud基于Linux内核新特性的下一代外网网关设计及相关开源工作_服务革新_文旭_InfoQ精选文章