QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

后摩尔定律时代,如何提升云效益的天花板

  • 2023-03-27
    北京
  • 本文字数:3475 字

    阅读完需:约 11 分钟

后摩尔定律时代,如何提升云效益的天花板

在摩尔定律失效的今天,各行各业对算力的需求却空前膨胀。大数据、AI 等趋势方兴未艾,生命科学、智能制造等行业的深度数字化,也给数据处理的规模和性能带来更高要求。


云作为如今数字经济的基础设施,承载着海量的应用。云厂商不得不思考,如何才能更好地满足客户对数据处理效率越来越高的要求,对算力性能、性价比越来越高的要求?


在摩尔定律失效的今天,当前云上的企业是否已经触碰到了云效益的天花板?云厂商可以做点什么,来突破传统计算架构下对算力的限制?作为一种新型的计算服务提供模式,云服务器所提供的性价比如何超越自建数据中心?


本文,InfoQ 于阿里云第八代企业级实例 g8i 正式发布之际,采访到了阿里云弹性计算产品总监王志坤和阿里云高级产品专家姬少晨,试图寻求上述问题的答案。

死磕“性能”,软硬一体化重塑计算架构


3 月 24 日,阿里云发布第八代企业级实例 g8i。其依托于 CIPU+ 飞天的技术架构,搭载第四代英特尔至强处理器(代号 Sapphire Rapids,SPR),全核睿频 p0n 达到 3.2GHz,相比上一代实例,整机核密度提升 50%,性能提升 60% 以上。


存储方面,IOPS 最高达 100 万,全面适配 NVMe 云盘,存储延时低至百微秒,同时支持共享盘。网络方面,全面升级至配阿里云自研 eRDMA 大规模加速能力,g8i 是业界首个具备大规模弹性 RDMA 加速能力的计算实例,网络延时最低 8 微秒,为数据库、大数据等常见应用带来进一步的性能跃升。


这种算力服务水平的不断提升,效益的不断突破,从何而来?


从阿里云弹性计算的一路演进来看,答案很明确:软硬一体化,甚至尝试重构传统计算架构。具体到本次 ECS g8i 实例,其表现为基于“飞天 +CIPU”架构。


如今,软硬一体化成为所有云厂商共同的方向。如果将时间倒退到 2017 年,阿里云是孤独的。


以往,企业选择上云主要是希望通过其进行商业模式的创新,云计算弹性、灵活、免运维的原始特点降低了企业的初始建设门槛,虽然这牺牲了一部分性能,但在当时的商业环境下,这样的性能损失与其带来的商业价值相比并不关键。


后来,随着越来越多的企业上云,性能损耗问题越来越突出。为了解决这一问题,阿里云相关研发团队于 2017 年推出业内首款计算虚拟化损耗为零的神龙弹性裸金属服务器,深度融合了物理机和虚拟机特性,标志着神龙架构的诞生。


45 天之后,亚马逊云科技在地球另一端发布了自研的云服务器硬件——Nitro。


自此,云厂商开始深入硬件领域,战场开始发生转移。


2019 年 9 月,阿里云正式发布第三代自研神龙架构,用户能在云上获得超越传统物理机 100% 的计算能力。2021 年,第四代神龙架构诞生,具备业界首个大规模弹性 RDMA 加速能力。2022 年,神龙架构全面升级为 CIPU,可实现对计算服务器即插即用,对数据中心内部的云计算体系架构进行改革创新,从以 CPU 为中心的体系架构进入以飞天操作系统 +CIPU 为中心的体系架构。


如今,云计算所能提供的优势不单单是免运维,而是性能也就是性价比的全面提升。ECS g8i 的发布让这种能力更加普惠,让大部分云上用户都可以感受到云平台本身的性能跃迁。

普惠 eRDMA 加速能力,突破场景化性能极限


ECS g8i 实例的发布也标志着阿里云自研 eRDMA 能力的全面商业化,这也是本次第八代实例 g8i 的性能大杀器之一。eRDMA 能够大幅提升大规模计算通信效率,并且能够随着阿里云的集群规模动态扩展,轻松构建大规模 RDMA 高性能计算网络。


RDMA(Remote Direct Memory Access)是一种高性能网络传输技术,可将数据直接从一台计算机的内存传输到另一台计算机,数据传输不经过 CPU。相比传统 TCP 网络,RDMA 能够大幅减少 CPU 的开销,并降低网络互联带来的通信延迟,有助于在云上处理更大数据量的应用。


然而,搭建 IB (InfiniBand) 和 RoCE(RDMA over Converged Ethernet)等主流 RDMA 方案,存在部署周期长、维护成本高、使用门槛高和无法大规模组网等弊端,同时与现有 TCP 网络不兼容。企业需要购置昂贵的专用设备,并对应用做改造,才能用上 RDMA 能力。


阿里云通过自研的 CIPU,基于云上通用设备,研发出“弹性 RDMA”,简称 eRDMA。相较于传统 TCP 网络,eRDMA 具有更高性能,同时消灭了上述弊端。


基于 CIPU,eRDMA 与云上 VPC 共享同一张网络,用户可以随开随用具有 eRDMA 能力的实例;现有 Redis、Spark、AI、HPC 等应用,通过阿里云提供的接口,即可一键适配,最大程度降低企业的使用难度。同时,企业的大规模分布式计算应用将更加高效,能够以更低的成本在更短的时间内处理更大规模的数据量。


与此同时,芯片厂商的王牌代表英特尔,也在用自身的方式,正在打破摩尔定律失效的魔咒。他们给出的方式,是 CPU 内置多种加速器——让 CPU 不仅仅承担通用计算的功能,而是变得擅长更多垂直场景。


第四代英特尔至强可扩展处理器所配备的硬件原生加速器,搭配上阿里云的 eRDMA 能力,更是使 g8i 在大数据和数据库等场景下的性能大幅提升。


“英特尔已经不是一家传统的 CPU 厂商,它也在积极地向云转型,而通过硬件辅助的虚拟化带来的性能优势是巨大的。阿里云每年都会与英特尔保持高密度的沟通,双方就如何让云计算更加普惠做深入合作,而只有当云本身达到一定的体量,这种合作的规模化效益才能展现出来,实现双赢。”王志坤表示。


阿里云弹性计算产品线负责人张献涛表示,阿里云 CIPU+ 飞天的技术架构与第四代英特尔® 至强®可扩展处理器的强强联合下,阿里云第八代企业级实例 g8i 规格族性能最大提升了 60%,叠加第四代英特尔® 至强®处理器的加速器,在大数据、数据库等场景实现了数倍级性能提升,进一步为客户实现降本增效;同时,双方就机密虚拟机能力 TDX 在云上的实践进行了深度的技术合作,相信在双方的持续紧密合作之下,将会给更多各行业的客户带来更具性价比的技术红利。

卷安全:将机密计算拉下神坛


在性能得以持续攀升的背后,云厂商必须死守安全底线,否则皆是空谈。


安全方面,本次发布的 ECS g8i 实例支持可信计算与加密计算等特性,默认内存加密(TME),并率先支持机密虚拟机 TDX(Intel® Trusted Domain Extension)能力。


随着云计算的大规模部署,机密计算旨在允许将云提供商从可信计算基础(TCB)中移除,以便只有硬件和受保护的应用程序本身在可信边界内。这使得客户可以放心地、安全地将业务负载转移到公有云上。然而,过去多年,机密计算对用户来说始终是一种“看得着,摸不着”的存在。


在工程落地层面,主流的机密计算技术方案要么对应用具备较大侵入性,要么性能会做出较大牺牲。作为亚太地区最早部署机密计算的云厂商,阿里云一直在持续推广可信与机密计算技术以为客户的数据提供更好的保护。


ECS g8i 实例成功将机密计算“拉下神坛”,其全量搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力。在实例可信的基础上,配合英特尔硬件 TEE 能力和内存加密 TME (Intel® Total Memory Encryption) 技术,以及阿里云自研的加密计算隔离环境 enclave,ECS g8i 实例进一步实现数据的可用不可见,为大型互联网、新金融、医疗保健、知识产权等业务场景提供了更高安全等级数据保护能力和云上可信运行环境。


内存加密 TME 技术是新一代 ECS g8i 实例独具的全新安全加密技术。在该技术的加持下,ECS g8i 实例默认全内存加密,加强内存数据的抗物理攻击能力,进一步提升云上数据的安全水位,用户无需对操作系统或应用进行任何改动,即可享受到更高一层的安全防护。


同时,基于英特尔第四代至强可处理器的 g8i 实例还实现了机密虚拟机能力 TDX 在云上的实践,无需用户二次开发即可将现有应用迁移至受 TDX 保护的实例。阿里云和 Intel 在 TDX 的架构设计、功能验证、安全分析和性能优化等方面均进行了紧密的合作,并实现了 TDX 技术在云上的首次应用。目前,阿里云在全球范围内实现了该能力的首发,这将推动机密计算的通用化和平民化,并与可信技术一起成为未来云上服务器的标准能力。

行进在云普惠的路上:天花板远未到达


过去 14 年的发展历程中,阿里云的弹性计算演进史可以概括为云计算技术的普惠历程、算力的普惠历程,这对当今处在人工智能风暴中的企业而言具备极大的场景价值。


时至今日,云所带来的已经不单单是运维优势,性能提升的背后蕴含着的是巨大的成本优势。随着阿里云这样的云厂商在核心技术层面不断做出突破,将会有越来越多的企业愿意深度用云。


在政策方面,数字中国建设、东数西算等都将云计算放到了非常重要的位置。未来十年,在多方利好因素促成之下,我们有理由相信云计算将进入普惠发展期。


所以,云效益的天花板远未到达,有些人尚未触顶,有些人在不断突破极限。

2023-03-27 14:093388

评论

发布
暂无评论
发现更多内容

“互联网+”大赛之智慧校园赛题攻略:你的智慧校园,WeLink帮你来建

华为云开发者联盟

小程序 华为云 welink 智慧校园 “互联网+”大赛

【LeetCode】二叉树的镜像Java题解

Albert

算法 LeetCode 8月日更

解决「停车难」,EMQ 映云科技数据接入方案在智慧停车平台中的应用

EMQ映云科技

大数据 物联网 移动互联网 智慧交通 emq

融云为WICC2021“新视界”带来视频压缩技术新探索

融云 RongCloud

学习笔记:HTTP消息的响应码

姬翔

主打年轻群体,2022款欧拉黑/白猫6.98万元起正式预售!

科技热闻

运维日志审计是什么意思?用什么工具好?

行云管家

信息安全 堡垒机 日志审计 运维日志 安全事故

一周信创舆情观察(8.2~8.8)

统小信uos

WICC 2021技术分论坛 融云解析全球一体化通信网络架构

融云 RongCloud

老弟做了个网盘,炸了!

程序员鱼皮

Java c++ 系统设计 后端

北鲲云告诉你足够的存储空间在高性能计算有多重要

北鲲云

25岁阿里120W年薪架构师推荐学习的750页微服务架构深度解析文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

源码级深挖AQS队列同步器

码农参上

AQS 锁机制 8月日更

2021年8月国产数据库排行榜:TiDB稳榜首,达梦返前三,Kingbase进十强,各厂商加速布局云生态

墨天轮

数据库 opengauss TiDB oceanbase 国产数据库

国家电网调控人工智能创新大赛开启 百度飞桨提供国产AI平台

百度大脑

人工智能 飞桨

搞深度学习框架的那帮人,不是疯子,就是骗子

博文视点Broadview

你敢信?清华毕业大佬用了一个坦克大战项目就讲完了23种设计模式

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

校庆小程序开发案例与部署实践

CC同学

🏆【SpringBoot 技术专题】「Tomcat技术专区」用正确的姿势如何用外置tomcat配置及运行(Tomcat优化分析)

码界西柚

tomcat springboot 8月日更

SphereEx 登陆 ApacheCon Asia|依托 ShardingSphere 可插拔架构体系打造数据应用完整生态

SphereEx

数据库 开源

B轮融资逾2亿高瓴创投领投,最懂金融的RPA厂商金智维有何不凡之处?

王吉伟频道

RPA 金融科技 机器人流程自动化 做市机器人 金智维

MySQL 系列教程之(一)初识 MySQL

若尘

MySQL 8月日更

马士兵老师亲自总结3000+道Java面试题,刷完吊打架构师面试官

Java架构追梦

Java 架构 面试 java架构师

牛啊!长这么大还是头一次见24W字的SpringBoot从入门到实战文档

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

FastApi-10-Example

Python研究所

FastApi 8月日更

3 条掏心掏肺的建议,新手学习编程必备,快上车!

沉默王二

编程

Compose 中的 ConstraintLayout

Changing Lin

8月日更

七面阿里淘宝,工程项目经验为0,所以被死磕Java,最终拿p7职级

公众号_愿天堂没有BUG

Java 编程 程序员 架构 面试

Linux云计算-MySQL-表操作-索引-外键-视图

学神来啦

MySQL 数据库 Linux 运维

Debian 10 安装 phpMyAdmin

Tao

MySQL 服务器 PHP-FPM MariaDB Debian

别慌!阿里专家破SpringBoot:入门+基础+进阶+项目

Java spring 程序员 架构 面试

后摩尔定律时代,如何提升云效益的天花板_服务革新_赵钰莹_InfoQ精选文章