带宽利用率提升 50%，腾讯云联网架构方案解析

企业 A 是一家互联网公司，当前在云上计算资源已经接近 10W 核，华东地域专线流量 24G+，资源部署以华东为主、华北、华南、西南等可用区为辅。该企业属于典型的混合云架构，本文主要分享企业 A 如何通过云联网架构优化实现带宽利用率提升 50%，希望与大家一同交流。

一、云联网背景介绍

1. 对等连接概述

对等连接（Peering Connection）是一种大带宽、高质量的云上资源互通服务，可以帮助打通腾讯云上的资源通信链路。对等连接具有多区域、多账户、多种网络异构互通等特点，支持 VPC 间互通、VPC 和黑石私有网络互通，满足不同业务的部署需求。

2. 传统专线概述

混合云架构前期都是使用传统的专用通道打通用户 IDC 与云上 VPC。如果一根物理专线需要打通多个 VPC，需要通过不同的 VLAN ID 分别创建专用通道来连接多个 VPC。

3. 云联网概述

云联网（Cloud Connect Network，CCN）为用户提供云上不同 VPC 间、VPC 与本地数据中心间（IDC）内网互联的服务。具备全网多点互联、路由自学习、链路选优及故障快速收敛等能力。

云联网覆盖全球 20+ 地域，支持 100+Gbps 带宽以及最高可达 99.99% 的可用性，为用户轻松构建极速、稳定、安全、灵活的全球互联网络，典型应用场景如下：

VPC 与 VPC 间高质量内网互联：在线教育多个地域的实时音视频系统、游戏加速多地域内网互联、多地域容灾架构。
VPC 与 IDC 间内网全互联：一个专用通道打通多个 VPC，实现单次接入全网互联，如混合云场景。

云联网对比对等连接和传统专线的优势如下图所示：

下文将从企业 A 的实际出发，介绍企业 A 采用腾讯云联网的架构优化实践。

二、企业 A 架构现状介绍

1. 企业 A 混合云背景介绍

企业 A 核心业务位于华东地区，在上海有两个 VPC，一个自建 IDC。在北京、成都、广州、HK 各有一个 VPC，其中 HK 的 VPC 用于接入海外业务。

最终通过对等连接以及传统专线通道实现所有云上 VPC 与自建 IDC 的互联互通（由于传统架构互联线路较多暂不提供具体拓扑，下文提供了分解拓扑）。

2. 公有云 VPC 通过对等连接互联架构

企业 A 上海地域当前是两个 VPC，一个是业务 VPC，另外一个是用于测试的 VPC，同地域两个 VPC 之间理论上不限制带宽，除非底层数据中心的 DCI 互联带宽（DCI 互联带宽都是上 T 级别）被打满才会导致同地域对等连接丢包；
企业 A 的少量海外业务通过香港 2 区的 VPC 做接入，再通过 100Mbps 的对等连接实现打通上海 5 区的核心业务 VPC；
企业 A 分布在华东、华北、华南、西南的业务 VPC 通过对等连接全互连实现业务互访。

3. 公有云 VPC 与自建 IDC 通过传统专线互联架构

名词解释：NGW（底层专线网关集群）、QCAR（网络设备）、QCPL（网络设备）IDC（数据中心）。

企业 A 公有云 VPC 到自建 IDC 每天峰值总流量 24Gbps，正常四条 10G 专线均分流量为：24Gbps * 25% = 6Gbps；
当前企业 A 的传统专线架构是专线 1 与 2、专线 3 与 4 相互备份，当专线 1 故障，那么专线 1 的流量会转发到专线 2，所以每条专线的带宽使用率不建议超过 50%；
由于企业 A 业务快速增长，当前每条专线的带宽使用率已经达到 60%。如果上图 2 的专线 1 故障，就会有 12Gbps 的流量转发到专线 2，最终导致专线 2 带宽拥塞而丢包影响业务。

4. 当前互联架构的挑战

公有云 VPC 之间互通要建立全互连的对等连接，并且每次增加 VPC 都有增加大量对等连接和路由，最终导致维护成本越来越高；
跨地域对等连接的底层网关集群故障无法自动切换路由恢复，止损耗时久；
企业 A 自建 IDC 到腾讯云的四条专线，如何实现中断任何一条，另外三条专线可用均分故障链路的流量，最终通过最低的成本解决丢包问题；
企业 A 有四个公有云 VPC 需要和自建 IDC 互通，那么需要四个专线网关，以及 16 个 BGP 邻居和专线通道。后续每增加一个 VPC 就会增加四个专线通道，最终导致专线的运维成本增加。

三、云联网改造方案介绍

1. 公有云 VPC 通过云联网互联架构设计

企业 A 所有 VPC 只需要加入新建云联网实例，即可实现相互路由自动学习，无需维护大量对等连接和大量手工添加的路由；
所有存量 VPC 以及后续增量 VPC 互通的流量都需要通过云联网实现，可以将该云联网实例看作企业 A 的虚拟骨干网；
多 AZ（可用区）网关集群容灾，可用性比对等连接更高；
跨地域云联网网关之间会有拨测，最终选择最优路径来降低延迟，提升业务稳定性。

2. 公有云 VPC 与自建 IDC 通过云联网互联架构设计

名词解释：CCNGW（云联网类型专线网关）、QCAR（网络设备）、QCPL（网络设备）IDC（数据中心）。

企业 A 所有 VPC 以及四个专线网关都加入同一个云联网实例最终实现相互访问，并且无论几个 VPC 和自建 IDC 互通只需要 4 个专线通道即可（简化配置复杂度，简单可靠）；
云上 VPC 路由下一跳是云联网，然后通过 ECMP（负载均衡）四份流量到 4 个云联网专线网关，最终通道底层路由将流量通过四条物理专线转发到自建 IDC（逻辑转发路径：VPC---CCN---专线网关---专线---IDC）；
假设企业 A 的物理专线 1 再次中断，那么 QCPL1 无法收到自建 IDC 的 BGP 路由。最终通过路由收敛使得云联网将流量转发给云联网专线网关 2-4，从而实现任意一条物理专线故障都会将流量均分给其他三条专线；
在成本不增加的情况下，通过云联网的改造将专线带宽利用率从理论值 50% 提升到 75% 实现降本增效。

四、云联网改造总结

1. 云联网改造带来的实际收益

企业 A 所有云上 VPC 不必两两之间创建对等连接，只需要加入云联网即可实现全部的互联互通，降低了云上 VPC 的运维成本；
企业 A 跨地域 VPC 互通的网关集群实现多 AZ 容灾，提升跨地域互通的可用性；
企业 A 的四条专线峰值总流量 24Gbps 情况下中断任意一条都会通过路由收敛自动恢复业务，不必依赖于被动等待专线修复或者降级其他业务来恢复，最终提升专线的高可用性；
企业 A 云上 VPC 与 IDC 互通只需要创建 4 个 BGP 邻居即可，也不必为每个云上 VPC 创建专线网关，最终极大降低专线的运维成本。

2. 云联网改造注意事项

线上业务改造需要很谨慎，建议前期做好深度调研，比如相关业务特征，带宽容量评估，当前架构的梳理，当前架构的缺点，新架构是否解决老架构缺点，各个地域的改造难度，是否可以平稳切换到新架构等。

双方一起确认新架构灰度基本步骤，基本原则是：先灰度测试 VPC，然后按 VPC 业务量从小到大的顺序进行灰度。

未使用过云联网的用户建议先创建测试 VPC 熟悉云联网配置方法，具体可参考文末提供的相关文档。

真正灰度前拉通腾讯云网络专家评估新老架构的底层网关路径差异，网关集群的带宽容量，底层路径 MTU 差异，云联网限速算法（截止 2020 年 11 月依然存在均分算法和分布式算法两种，出于带宽利用率最大化考虑建议分布式算法）等。每次灰度迁移都需要有明确的变更步骤、验证步骤、回退步骤，最终来确保灰度顺利完成。

每个账号云联网数量限制 5 个，每个云联网可以绑定的网络实例（例如 VPC 就是一个网络实例）数量限制 25 个。

云联网跨地域带宽限速方式有两种，一种是地域出口限速（单地域云联网总的出口限速），另外一种是地域间限速（地域 A 到地域 B 之间的带宽限速）。

参考文档：

[1] 测试 VPC 配置文档：https://cloud.tencent.com/document/product/877/18752

[2] 对等连接迁移云联网配置文档：https://cloud.tencent.com/document/product/877/18854

[3] 传统专线网关迁移云联网专线网关配置文档：https://cloud.tencent.com/document/product/877/31037

头图：Unsplash

作者：李彬文 - 腾讯云售后架构师

原文：带宽利用率提升50%，腾讯云联网架构方案解析

来源：云加社区 - 微信公众号 [ID：QcloudCommunity]

转载：著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

创作场景