长期以来,以 CPU 为核心的云计算架构体系几乎是所有云厂商的共识。如果以虚拟化的发展来划分云的发展阶段,可以看到云技术经历了虚拟化、分布式、资源池化等几个阶段。云计算如今已经处在“由业务流程为中心向数据处理为中心”转化阶段,在多位阿里云技术专家看来,在数据量暴涨的情况下,纯软件定义的云不仅损耗 IO 性能、管理难度和安全风险也将难以把握,企业需要一个全新的计算体系结构来支撑业务变化。
在这样的背景下,阿里云在峰会上发布了以 CIPU 为中心的新型计算体系,用 CIPU 替代 CPU 成为云时代 IDC 的处理核心。从 CPU 到 CIPU,为什么阿里云此时“变”了内核?CIPU 与 CPU 有哪些不同?CIPU 是否代表着云计算的发展来到了新的阶段?InfoQ 就此对阿里云虚拟化技术负责人蒋林泉、阿里云云网络负责人祝顺民、阿里云基础产品首席架构师黄瑞瑞进行了采访。要想准确回答这些问题,我们需要先来梳理一下业务需求的变化和云计算发展的关系。
解决可扩展性问题,分布式技术走到台前
阿里云之所以推出新型计算体系,主要是为了应对越来越普遍的数据密集型计算场景下,用户对低时延、高带宽的需求越来越高的趋势。业务层的需求变化贯穿了云计算的发展历程。早期的云计算和云技术纠缠在一起,在企业业务需求中萌芽。从虚拟化的视角出发,阿里云基础产品首席架构师黄瑞瑞将云计算的发展分成分布式技术阶段、资源池化技术阶段和如今的 CIPU 阶段。
“分布式架构严格来说还不是云,只是企业内部使用了相应的分布式架构去解决自身扩展性的问题。”黄瑞瑞谈到。这个阶段企业具备了云的基础技术能力,但是没有具备云计算的核心生产力,比如还没有达到即开即用的资源弹性、按需扩容、线性可扩展性等。随着业务的不断发展,单个企业内使用这种方式完全解决这个问题变得不现实。
不过早期的分布式技术依然在一定程度上为企业解决了可扩展性的问题。在未使用分布式技术前,企业通过不停地增加小型机或者数据库的方式应对计算任务的增加,并不具备可扩展性、且缺少性价比。分布式技术让企业不再需要专门采购一些专用的大型机或者定向购买小型机,解放了供应链的弹性。企业布置好分布式的集群,能将计算能力打散在不同的分布式机器上,但是企业由于业务状态不同,对于计算算力的要求会有波峰和波谷。不同公司的不同 IT 部门开始引入相对应的虚拟化技术,实现分时复用,解决单个企业内集群资源利用率相对比较低的问题。
阿里云最初也在用分布式计算支撑对应系统的可扩展性,去 IOE、去小型机、去单体扩展性相对没有那么好的架构。直到 2013 年,阿里云下线最后一台小型机,开始用自研的飞天云操作系统支撑集团业务。以阿里云为代表的公有云厂商们,进一步发展分布式技术和虚拟化技术,在飞速发展的互联网时代迎来了属于自己的时代。
资源池化,算力普惠
企业业务规模不断扩大,数据体量和架构复杂度也水涨船高。在原有的技术难以满足业务的需求的情况下,公有云时代加速到来。在阿里云基础产品首席架构师黄瑞瑞看来,分布式架构下一个时代就是公有云,从技术的维度去看就是资源池化的时代。
云厂商的入场推动了云计算技术的发展。资源池化的关键技术能力在于能否将云上的资源提供给对应的弹性。将云上的计算、存储、网络等技术的算力资源,通过不同的搭配方式,在云上搭建各种各样的应用。“一旦资源池化了,客户能看到的其实就是即开即用的虚拟化资源池。”黄瑞瑞解释。
从技术的维度看,资源池化阶段,虚拟化技术再向前一步,将不同的物理资源变成虚拟化的资源,变成统一的池化管理。资源池化将计算的虚拟化资源、存储的虚拟化资源、网络的虚拟化资源放在一起管理,企业就不需要承担早期分布式阶段中自己管理基础资源、不需要自己管理虚拟化资源。云厂商们迎来了新的业务需求挑战:企业在进行上云时不仅仅注重技术问题,也更加关注经济问题。
“资源池化的这个技术点必须要突破”,黄瑞瑞强调。如果云厂商无法提供统一调度、统一管理和统一编排的能力,对资源的利用率就上不去,很难在整体上突破性价比的瓶颈。“这个真的是要看本事的,因为阿里云也是在过去几年中不断地打磨我们的统一资源的调度和编排的能力,这个其实是非常难的”。阿里云在这个阶段,通过计算存储分离架构,将计算、存储、网络资源分别池化,突破了规模和稳定性的瓶颈,提供了超大规模的云计算服务。包括阿里云在内的所有云厂商们提供的云服务,很大程度上降低了企业上云和使用云服务的技术门槛和成本,一定程度上实现了“算力普惠”,推动数字经济时代加速到来。
从技术视角往回看,分布式技术的早期阶段和资源池化阶段,以 CPU 为中心的“软件定义的云”解决了当时可扩展性和高弹性的问题。但是随着数字经济时代的到来,阿里云发现:管理基础设施规模越来越大,复杂度也越来越高。CPU 本质上是通用处理器,通过软件进行虚拟化就需要不停地适配软件。企业对于计算、网络传输、数据中心大量数据迁移等需求,如果依然以 CPU 为中心的软件做整体的调度,虚拟化的代价很高,对应的集群需要进行的应用负载中,数据的流量负载也会越来越大。一个纯软件定义的、以 CPU 为中心的云体系结构,费用会不断增加。
我们不禁想问,从硬件角度出发,通过软硬结合的方式能否解决这个问题?CIPU 就是阿里云从硬件角度出发的技术实践成果。云计算的发展来到了第三阶段吗?
“从计算体系架构的视角来讲,我们认为是有第三阶段的。”黄瑞瑞谈道。
阿里云 CIPU 技术架构,是云计算的第三阶段吗?
阿里云的 CIPU 是什么?
先来看下官方定义,据介绍,CIPU (Cloud Infrastructure Processing Unit)是阿里云自主研发的云基础设施处理器,在数据中心内部替代 CPU 成为云计算体系架构的中心,是为飞天云操作系统设计的专用处理器。CIPU 向下云化管理数据中心硬件,并对计算、存储和网络资源进行加速,向上接入飞天云操作系统,将全球 200 多万台服务器变成一台超级计算机,为客户提供更高性能、更低价格、更可靠的云计算服务。
一个非常核心的区别是,CIPU 是阿里自研的芯片。“CIPU 不是支撑 windows 或者 linux 操作系统的 x86 架构,而是支撑飞天云操作系统的云数据中心全新体系架构。在这种新型架构里面,我们的存储、计算、网络,通过这种新兴的体系架构互相之间进行通信交换,我们就可以对云的能力、效率、成本几方面都得到大幅提升。”阿里云云网络负责人祝顺民告诉 InfoQ,比如阿里云云网络新构建的硬件芯片和 CIPU 之间的关系,可以理解为相互连接在一起,通过利用 CIPU 一些硬件加速的能力和单元,提升性能。围绕 CIPU,阿里云提出了新的计算体系架构。
CIPU 怎样做到加速和管控?
“以前在 CPU 用软件来管理一两百万台服务器接入飞天操作系统,所有的算力都需要和飞天云操作系统耦合,给客户的算力和算力迭代都需要和飞天耦合,需要不断地做软件的适配。”阿里云虚拟化技术负责人蒋林泉解释:“我们把它变成硬件之后,你会发现我的 hypervisor 和我们的飞天云操作系统、和这个硬件,就和我刚才说的算力解耦掉了。”所谓“即插即用的云计算”,即对所有算力、传统服务器、物理服务器的接入,网络、存储接入的标准化,接入云的标准化的动作。
这并不是一个新的理念,本质上就是模块化,即“对内封闭、对外开放一个接口”。在蒋林泉看来,如果想要实现这件事情,方案上讲,估计行业内都会朝着一个方向走。
以网络层面举例,“过去几年我们做了很多软硬协同、硬件加速。我们在 SDN 的网关,在虚拟交换机上,在负载均衡上,都用了可编程的芯片、加速芯片来实现业务逻辑。这就是阿里云在构建云的时候跟其他人不一样的地方,这也是阿里云最核心的技术体现所在。”阿里云云网络负责人祝顺民谈道:“今天很多的负载均衡厂商其实都不太考虑多租户和弹性这个事情。而事实上,这个我认为是未来负载均衡这样的产品一定会演进的一个方向,还没有云化的负载均衡未来一定都会变成云化的负载均衡。”
目前,阿里云已经做到了数据中心的网络云化、数据中心之间网络的云化,目前正在研究用户自身的办公室和生产车间网络的云化方向。祝顺民提到:“用 CPU 去处理指令集实现多租户弹性更高开销是比较大的,CIPU 的核心就是去解决单位成本下更高的性能。”也就是说,CIPU 通过硬件加速的方式,是阿里云找到的实现“即插即用的云计算”可落地的实践路径。
可以看到, CIPU 诞生的目的是为了管理底层的云基础设施,包括相对应的底层的虚拟化的池化管理。
2017 年,阿里云发布了第一代神龙架构,并为之专门开发了 MOC 卡,可以理解为 CIPU 最开始的模糊概念。我们可以从阿里云神龙架构作为起点,去理解 CIPU 的演化过程。
据阿里云虚拟化技术负责人蒋林泉介绍,发展到如今的 CIPU,在保持被飞天敏捷调度的特征和“0“损耗计算加速外,具备了一些非常特殊的能力:
第一,计算、存储、网络全部接入这一代的硬件架构后,能够实现数据路径全部都是硬件加速,第一次真正完整地替代了原来的“软件定义云”。其中,值得一提的是通过完整的加速,第一次能够在云上大规模普惠化提供了 eRDMA 的高性能网络加速能力。
第二,CPU 和 GPU 目前的技术方向中,首先是 CPU 的密度越来越大,从原来服务器的 4 核到现在的 128 核,核数密度越来越高,带来的问题是爆炸半径比较大。CIPU 能够将一个有 128 个 VCPU 的 CPU 拆成 2 个 64 的 VCPU,解决了 CPU 越做越大的计算密度的问题;其次是 CPU 可以去做横向扩展,能用多个 CIPU 去支持一个 AI 计算的高密度计算,这意味着 CIPU 和原来的计算服务器从原来的 1:1 的关系变成了 1:N 甚至 N:1 的关系,实现计算、存储、网络资源以 CIPU 为中心的,更加高效灵活的云化。
以上两点就是所谓的“第一次真正做到了云数据中心的 C 位”,蒋林泉表示,原来的神龙第一代到第三代都在局部做这件事情,这次是首次 CIPU 成为云控制和加速中轴。“它是在 IDC 里面围绕它来构建云计算,不再是像原来一样纯是附属与一台服务器的一张卡,对应的硬件规格都发生了变化。”
CIPU 是怎样让虚拟化开销降到 0 的?
从神龙架构的视角来看,CIPU 的计算软件之一就是神龙的 hypervisor(管理程序),处理 CPU、内存、GPU 的虚拟化。CIPU 带来一个最明显的标志就是虚拟化的开销真正意义上降到了 0。
狭义地理解虚拟化开销为 0,指的是 CPU 内核的虚拟化,即 hypervisor 带来的性能损耗可以通过将 hypervisor 下沉到物理硬件上来解决,让企业也可以通过使用物理 CPU 和飞天操作系统,体验到云上的弹性和敏捷。
第一代和第二代的神龙解决了狭义的计算虚拟化开销为 0 的问题,但是存储和网络部分的虚拟化转发依然是要用软件实施的。第三代的神龙不同于第一二代用软件加速,把网络部分局部用硬件加速掉了;第四代 CIPU,可以把网络完整加速,同时把存储的数据链路也完整全部用硬件加速。
阿里云虚拟化技术负责人蒋林泉谈道:“到第四代为止,就是 CIPU 为止,无论是计算的虚拟化的消耗为 0,还是我们把存储、网络全面硬件加速,也几乎降到为 0。应该说到 CIPU 这一代,才是真正达成了完整的虚拟化开销下降到 0。”
“CIPU 这一层,我们在上层的飞天云操作系统里面不同内核的组件,包括不同的云产品中,我们做了定制化的开发,让它能够更好地用到底层的 CIPU 的能力”黄瑞瑞谈到,“阿里云今天提出 CIPU 的原因,一方面是 CIPU 已经在内部有了比较大规模的应用,能够向下管理不同的虚拟化资源;另一方面,阿里云意识到 CIPU 代表着更先进的生产力。”
最初的 MOC 卡提供了虚拟资源下的裸金属机,如今的 CIPU 可以管理和加速所有的虚拟化资源,包括跑虚拟化的管理程序以及接入到飞天云操作系统中。以 CPU 为中心的阶段是软件定义的云,以 CIPU 为中心的阶段是软硬结合的云。
与硬件厂商推出的 CPU、DPU 不同,黄瑞瑞认为:“向上设计的飞天云操作系统和向下的 CIPU,两者之间结合的效果一定是大于 2 的,因为本身就是一体化的。”飞天和 CIPU 也的确出自同一个大的研发团队之手。
“CIPU 下沉之后更多是跟 IDC 里面的服务器、交换机和存储集群物理上做数据面的加速。它数据面加速的时候,CIPU 上跑的其实就是神龙 hypervisor、洛神 AVS 以及盘古的 TDC,这几个核心软件跑在 CIPU 上面去做软硬一体。最终,这些虚拟化出来的资源再交给神龙计算平台,也就是我们分布式的弹性计算的调度系统和异常的调度系统。”蒋林泉介绍道。
CIPU 被阿里云视为连接服务器内硬件和云上抽象的虚拟化资源之间的关键“芯片”。
最新的数据显示,CIPU 自带硬件级安全的加固隔离,在计算、存储、网络以及安全方面为阿里云计算带来了改变:
图左为 CIPU 实图
计算方面,单容器虚拟化消耗减少 50%,虚拟化容器启动速度快 350%。主流通用计算场景下,Nginx 性能提升了 89%,Redis 性能提升了 68%、MySQL 提升了 60%。大数据和 AI 场景下,AI 深度学习场景训练性能提升 30%,Spark 计算性能提升 30%。同时,神龙计算平台可以提前预测 80% 的硬件故障,并进行无感热迁移规避,从而实现了高可用 SLA。
存储方面,通过全硬件虚拟化和转发加速,存储时延最低可至 30us(PLX),IOPS 高达 300 万,存储带宽可达 200 Gbps,同时还支持云上多计算节点 NVME 共享访问云盘块存储,Oracle RAC、SAP Hana 等高可用数据库可以无缝上云。
网络方面,基础带宽从 100G 升级至 200G,VPC 的 PPS 转发性能从 2000 万提升至 4000 万,网络时延从 22us 降低至 16us,RDMA 协议下更可低至 5.5us。应用上云之后,比自建物理机的集群吞吐量提升了 30%,业务高峰期延迟下降了 90%。
写在最后
高性能、低延迟、低成本、更安全、更稳定也已经成为云计算既定的技术大方向。在计算层面,蒋林泉观察到了比较明显的技术趋势,一个是计算的高密化,CPU 服务器的核数越来越高;第二就是 GPU,一个 GPU 的 AI 计算的处理能力急剧扩大,处理的数据也随之倍数增长。对于云厂商而言,需要考虑如何同时解决这两种核心计算的高密度计算下云化挑战,这里就牵涉到如何处理规模化支撑效率和综合稳定性的难题。整体视角下,黄瑞瑞在采访中强调:“云上必须要做到更稳定,更安全,否则的话云计算是没有未来的。”飞天向上,CIPU 向下,阿里云将以 CIPU 作为整个架构的中心,下一步将更加注重稳定性和安全的问题。
无论从技术视角看还是从商业的视角看,云计算的发展必将进一步深化。根据 Gartner 的数据,预计到 2025 年有 80% 的企业会放弃自己传统的数据中心,转向云平台。阿里云此次推出的 CIPU,为云计算的技术发展探出了一条新路径,更是一次云计算话语权的抢夺。
7 月 15-16 日,在深圳 ArchSummit 全球架构师峰会上,来自阿里云的专家将分享《企业云上管理与治理》
点击链接了解更多活动细节:https://archsummit.infoq.cn/2022/shenzhen/track/1393
评论 3 条评论