写点什么

揭秘下一代腾讯云高性能网络技术

  • 2019-11-12
  • 本文字数:2034 字

    阅读完需:约 7 分钟

揭秘下一代腾讯云高性能网络技术

大数据时代带来的数据流动性,对承担数据流动的网络技术带来了新挑战。11 月 7 日,在腾讯云主办的首届 Techo 开发者大会现场,腾讯云对下一代高性能网络技术进行了揭秘。

数据中心网络带宽演进的三个阶段

随着 5G、AI、云计算的普及和场景应用,越来越多的设备被连接,数据洪流随时随地产生和分享,对网络架构和处理数据的能力提出了新需求,而腾讯云对于高性能网络软件架构的思考,也经历了数据中心网络带宽演进的三个阶段:


第一阶段,公有云数据中心的服务器接入带宽在 2014 年从千兆迈入万兆。这个阶段所有的网络虚拟化软件通过内核模块实现, 通过横向扩展来满足网关的性能需求, 由于内核框架本身性能的局限性,实现的性能指标今天看起来很差,但是能够满足当时的客户诉求。


第二阶段,2017 年随着视频行业和游戏加速行业的兴起,云网络逐步开始从 10G 向 25G 迁移,这些行业上云对虚拟化网络提出了百万级别稳定的包处理能力需求,对 VM 的网络互访时延及时延的稳定性要求也更加苛刻。


在这种背景下, 虚拟化网络的技术突破点是 DPDK,整个虚拟网络的架构并没本质变化,只是虚拟网络软件用 dpdk 重新实现,提升了单台机器的性能。


第三阶段,预计到 2020 年底公有云数据中心的服务器接入带宽即将达到 100G。主要驱动力来自于虚拟化密度的提升。事实上,在今年底已有 196 核的 CPU 面世,虚拟化密度直接翻倍,可预期的未来,4HT 的技术会出现,虚拟化密度会继续大幅度提升,对网络基础设施架构的能力会带来非常大的挑战。


显然,不同的网络带宽时代,对虚拟化网络的软件架构会有不一样的要求。尤其是随着腾讯内部自研业务的大量上云,内网互访流量非常的大,overlay 访问 underlay 的支撑服务流量可以百 T 计,大流量的冲击下,集中式网关的资源问题和 scale 能力成为一个非常大的问题。

下一代腾讯云高性能网络技术两大突破口

对于腾讯云来说,下一代高性能网络技术突破有两个:超稳虚拟化平台、网关的演进。乍一看,两者似乎关系不大,但想要搭建下一代高性能网络技术就像是建房子,超稳虚拟化平台是支撑房子的地基,而网关则是贯穿房子墙面的的钢筋骨架。


“网络架构的元素会简化,要减少集中式网关的使用,核心是边界的高性能网关,以及高性能稳定的虚拟化底层平台”, 金峰现场说道。



金峰表示,超稳虚拟化平台,腾讯云内部有一个专门的云基项目去支撑。这个项目对网络虚拟化,存储虚拟化和计算虚拟化都做了大量的重构和优化,计算虚拟化大幅度优化 KVM 性能损耗,为社区贡献了超过 100 个核心 patch,在全球的互联网厂商中都名列前茅,可以保证在大多数场景下实现虚拟化相比物理机单核性能损耗在 5%以内。


网络虚拟化优化了各种不同场景的处理性能,不局限于优化快转表的性能,对于纯粹的包转发模式也做了大量的查询匹配优化,性能能做到 2M PPS 以上,此外 vswitch 可以自动判断每个数据包应该采用的转发模式,分别使用包转发,基于软件的快转表转发,和基于硬件的快转表转发, 为每种不同场景提供最适合的转发模式来保障性能。云基项目支撑的高稳虚拟化平台在腾讯内部的自研上云业务中大规模使用,支撑了 QQ,微信等核心业务的苛刻性能要求。值得一提的,业界支撑自研上云大多使用 baremetal 方案,腾讯云完全用虚拟化支撑了核心业务的自研上云。


有了超稳虚拟化这个扎实的房子地基,作为“钢筋骨架网络”的网关就可以持续演进,表现在三个方面:1、业务网关 NFV;2、内部服务去网关;3、边界网关硬件化。


首先,基于超稳的虚拟化平台,腾讯云可以将 LB, NAT 等业务网关放在虚拟化平台上,复用虚拟化平台本身的资源池优势,无感知调度迁移,高性能网络,优先级 QOS 等能力,保障自身的性能和稳定性。此外集中式网关变为分散的虚拟化网关,故障域大大缩小,对整体的可用性也有很大的收益。


其次,去除物理网关。对于用户访问对象存储,数据库等基础服务,此前会有一个有状态网关来做 overlay-underlay 转换,自研上云之后,几百 T 的内网带宽让这种集中式有状态网关的成本和可用性难以承受,将 overlay 和 underlay 的边界从网关移到每台提供基础服务的物理服务器上,每台物理服务器插入一个内核模块,提供 VPC 的被动访问接入能力。


第三,就是边界网关的硬件化,腾讯云已经在和一些合作伙伴进行这方面的预研,一台硬件网关可以提供 5-10 个 100G 软件网关集群提供的性能,在大网络吞吐时代对于边界网关的规模可控具有非常大的意义。


金峰表示,除了 VPC 网络之外,100G 网络当前最大的场景来自于大数据、AI 带来的低延迟高吞吐网络需求,这对于 RDMA 网络有非常强烈的诉求。


腾讯云采取 VPC overlay + rdma underlay 双网络的方式来承载基于 GPU direct 的 AI 多机训练业务;目前 100G rdma 网络已经在腾讯的云上 GPU 算力平台上得到应用,服务了腾讯内部的诸多 AI 类业务。


“下一代的高性能网络,腾讯云期望是一个结构简单的网络,它并不一定是绝对数值最好的,但是一定是对客户有保障的,能够满足客户各种不同场景的性能和可用性诉求”, 腾讯云 IAAS 专家工程师金峰总结道。


2019-11-12 17:561054

评论

发布
暂无评论
发现更多内容

Python数据可视化:数据分布图表可视化

不脱发的程序猿

Python 数据可视化 大数据分析

华为云ECS,专为您打造安全、灵活、高效的应用环境

与时俱进的时代

华为云OBS助力企业解决数据存储难题

科技说

数据即价值,华为云大数据BI解决方案助力企业实现数据高效转化

秃头也爱科技

华为云云原生数据库,激发数据活力

与时俱进的时代

聊一聊华为云弹性公网IP的那些事儿

路过的憨憨

用大数据服务医疗行业,华为云大数据BI,为医院智能决策提供保障

秃头也爱科技

dcm4che 依赖下载异常

JefferLiu

华为云OBS对象存储,企业存储的好帮手

科技说

读 2022 年 JavaScript 趋势报告

devpoint

typescript vite SOLID tauri

企业如何轻松上云?华为云弹性云服务器ECS给出答案

IT科技苏辞

华为云桌面Workspace荣获CSDN年度创新产品与解决方案大奖

Geek_2d6073

本地数据怎么备份上云?华为云对象存储服务OBS帮你实现

科技说

数据上云难?华为云对象存储服务OBS给企业最便捷体验

路过的憨憨

瑞萨E1/E20烧录工具自检方法

不脱发的程序猿

嵌入式 汽车电子 MCU 瑞萨 RH850

Atlassian FaaS 云开发平台 Forge 解析

跟YY哥学Jira

Jira Atlassian 云版 app development Forge

华为云弹性云服务器 ECS,如何引领行业高速发展?

路过的憨憨

华为云数据库,安全、专业,值得信赖

与时俱进的时代

Jira + GitLab 实践 DevOps

跟YY哥学Jira

DevOps gitlab jenkins Jira

华为云CDN全站加速助力网站性能全面优化

i生活i科技

CDN

华为云CDN为企业下载加速,极大提升客户体验

i生活i科技

CDN

CSDN 2022年度榜单揭晓,华为端云协同智能流程机器人斩获大奖

Geek_2d6073

看不见的控制流 — Rust 异步取消问题的几点思考

Greptime 格睿科技

数据库 rust 异步编程 tokio

【深入浅出Seata原理及实战】「入门基础专题」带你透析认识Seata分布式事务服务的原理和流程(1)

洛神灬殇

分布式事务 seata Alibaba SpringCloud Alibaba Seata框架

告别“自建房”,华为云ECS为企业提供更优选

科技说

2023-01-12:一个n*n的二维数组中,只有0和1两种值, 当你决定在某个位置操作一次, 那么该位置的行和列整体都会变成1,不管之前是什么状态。 返回让所有值全变成1,最少的操作次数。 1 <

福大大架构师每日一题

算法 rust Solidity 福大大

解决企业数据存储难题:华为云OBS,企业“上云”的不二之选

路过的憨憨

Java在Mac里启动一个新的Terminal

IT蜗壳-Tango

IT蜗壳教学

华为云为瑞星量身打造下载加速方案,助力瑞星完成产品升级

秃头也爱科技

安全、高效、便捷,华为云CDN助力企业体验升级!

i生活i科技

CDN

架构实战营 模块四作业

白杨

揭秘下一代腾讯云高性能网络技术_服务革新_云加社区_InfoQ精选文章