写点什么

后摩尔定律时代,如何提升云效益的天花板

  • 2023-03-27
    北京
  • 本文字数:3475 字

    阅读完需:约 11 分钟

后摩尔定律时代,如何提升云效益的天花板

在摩尔定律失效的今天,各行各业对算力的需求却空前膨胀。大数据、AI 等趋势方兴未艾,生命科学、智能制造等行业的深度数字化,也给数据处理的规模和性能带来更高要求。


云作为如今数字经济的基础设施,承载着海量的应用。云厂商不得不思考,如何才能更好地满足客户对数据处理效率越来越高的要求,对算力性能、性价比越来越高的要求?


在摩尔定律失效的今天,当前云上的企业是否已经触碰到了云效益的天花板?云厂商可以做点什么,来突破传统计算架构下对算力的限制?作为一种新型的计算服务提供模式,云服务器所提供的性价比如何超越自建数据中心?


本文,InfoQ 于阿里云第八代企业级实例 g8i 正式发布之际,采访到了阿里云弹性计算产品总监王志坤和阿里云高级产品专家姬少晨,试图寻求上述问题的答案。

死磕“性能”,软硬一体化重塑计算架构


3 月 24 日,阿里云发布第八代企业级实例 g8i。其依托于 CIPU+ 飞天的技术架构,搭载第四代英特尔至强处理器(代号 Sapphire Rapids,SPR),全核睿频 p0n 达到 3.2GHz,相比上一代实例,整机核密度提升 50%,性能提升 60% 以上。


存储方面,IOPS 最高达 100 万,全面适配 NVMe 云盘,存储延时低至百微秒,同时支持共享盘。网络方面,全面升级至配阿里云自研 eRDMA 大规模加速能力,g8i 是业界首个具备大规模弹性 RDMA 加速能力的计算实例,网络延时最低 8 微秒,为数据库、大数据等常见应用带来进一步的性能跃升。


这种算力服务水平的不断提升,效益的不断突破,从何而来?


从阿里云弹性计算的一路演进来看,答案很明确:软硬一体化,甚至尝试重构传统计算架构。具体到本次 ECS g8i 实例,其表现为基于“飞天 +CIPU”架构。


如今,软硬一体化成为所有云厂商共同的方向。如果将时间倒退到 2017 年,阿里云是孤独的。


以往,企业选择上云主要是希望通过其进行商业模式的创新,云计算弹性、灵活、免运维的原始特点降低了企业的初始建设门槛,虽然这牺牲了一部分性能,但在当时的商业环境下,这样的性能损失与其带来的商业价值相比并不关键。


后来,随着越来越多的企业上云,性能损耗问题越来越突出。为了解决这一问题,阿里云相关研发团队于 2017 年推出业内首款计算虚拟化损耗为零的神龙弹性裸金属服务器,深度融合了物理机和虚拟机特性,标志着神龙架构的诞生。


45 天之后,亚马逊云科技在地球另一端发布了自研的云服务器硬件——Nitro。


自此,云厂商开始深入硬件领域,战场开始发生转移。


2019 年 9 月,阿里云正式发布第三代自研神龙架构,用户能在云上获得超越传统物理机 100% 的计算能力。2021 年,第四代神龙架构诞生,具备业界首个大规模弹性 RDMA 加速能力。2022 年,神龙架构全面升级为 CIPU,可实现对计算服务器即插即用,对数据中心内部的云计算体系架构进行改革创新,从以 CPU 为中心的体系架构进入以飞天操作系统 +CIPU 为中心的体系架构。


如今,云计算所能提供的优势不单单是免运维,而是性能也就是性价比的全面提升。ECS g8i 的发布让这种能力更加普惠,让大部分云上用户都可以感受到云平台本身的性能跃迁。

普惠 eRDMA 加速能力,突破场景化性能极限


ECS g8i 实例的发布也标志着阿里云自研 eRDMA 能力的全面商业化,这也是本次第八代实例 g8i 的性能大杀器之一。eRDMA 能够大幅提升大规模计算通信效率,并且能够随着阿里云的集群规模动态扩展,轻松构建大规模 RDMA 高性能计算网络。


RDMA(Remote Direct Memory Access)是一种高性能网络传输技术,可将数据直接从一台计算机的内存传输到另一台计算机,数据传输不经过 CPU。相比传统 TCP 网络,RDMA 能够大幅减少 CPU 的开销,并降低网络互联带来的通信延迟,有助于在云上处理更大数据量的应用。


然而,搭建 IB (InfiniBand) 和 RoCE(RDMA over Converged Ethernet)等主流 RDMA 方案,存在部署周期长、维护成本高、使用门槛高和无法大规模组网等弊端,同时与现有 TCP 网络不兼容。企业需要购置昂贵的专用设备,并对应用做改造,才能用上 RDMA 能力。


阿里云通过自研的 CIPU,基于云上通用设备,研发出“弹性 RDMA”,简称 eRDMA。相较于传统 TCP 网络,eRDMA 具有更高性能,同时消灭了上述弊端。


基于 CIPU,eRDMA 与云上 VPC 共享同一张网络,用户可以随开随用具有 eRDMA 能力的实例;现有 Redis、Spark、AI、HPC 等应用,通过阿里云提供的接口,即可一键适配,最大程度降低企业的使用难度。同时,企业的大规模分布式计算应用将更加高效,能够以更低的成本在更短的时间内处理更大规模的数据量。


与此同时,芯片厂商的王牌代表英特尔,也在用自身的方式,正在打破摩尔定律失效的魔咒。他们给出的方式,是 CPU 内置多种加速器——让 CPU 不仅仅承担通用计算的功能,而是变得擅长更多垂直场景。


第四代英特尔至强可扩展处理器所配备的硬件原生加速器,搭配上阿里云的 eRDMA 能力,更是使 g8i 在大数据和数据库等场景下的性能大幅提升。


“英特尔已经不是一家传统的 CPU 厂商,它也在积极地向云转型,而通过硬件辅助的虚拟化带来的性能优势是巨大的。阿里云每年都会与英特尔保持高密度的沟通,双方就如何让云计算更加普惠做深入合作,而只有当云本身达到一定的体量,这种合作的规模化效益才能展现出来,实现双赢。”王志坤表示。


阿里云弹性计算产品线负责人张献涛表示,阿里云 CIPU+ 飞天的技术架构与第四代英特尔® 至强®可扩展处理器的强强联合下,阿里云第八代企业级实例 g8i 规格族性能最大提升了 60%,叠加第四代英特尔® 至强®处理器的加速器,在大数据、数据库等场景实现了数倍级性能提升,进一步为客户实现降本增效;同时,双方就机密虚拟机能力 TDX 在云上的实践进行了深度的技术合作,相信在双方的持续紧密合作之下,将会给更多各行业的客户带来更具性价比的技术红利。

卷安全:将机密计算拉下神坛


在性能得以持续攀升的背后,云厂商必须死守安全底线,否则皆是空谈。


安全方面,本次发布的 ECS g8i 实例支持可信计算与加密计算等特性,默认内存加密(TME),并率先支持机密虚拟机 TDX(Intel® Trusted Domain Extension)能力。


随着云计算的大规模部署,机密计算旨在允许将云提供商从可信计算基础(TCB)中移除,以便只有硬件和受保护的应用程序本身在可信边界内。这使得客户可以放心地、安全地将业务负载转移到公有云上。然而,过去多年,机密计算对用户来说始终是一种“看得着,摸不着”的存在。


在工程落地层面,主流的机密计算技术方案要么对应用具备较大侵入性,要么性能会做出较大牺牲。作为亚太地区最早部署机密计算的云厂商,阿里云一直在持续推广可信与机密计算技术以为客户的数据提供更好的保护。


ECS g8i 实例成功将机密计算“拉下神坛”,其全量搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力。在实例可信的基础上,配合英特尔硬件 TEE 能力和内存加密 TME (Intel® Total Memory Encryption) 技术,以及阿里云自研的加密计算隔离环境 enclave,ECS g8i 实例进一步实现数据的可用不可见,为大型互联网、新金融、医疗保健、知识产权等业务场景提供了更高安全等级数据保护能力和云上可信运行环境。


内存加密 TME 技术是新一代 ECS g8i 实例独具的全新安全加密技术。在该技术的加持下,ECS g8i 实例默认全内存加密,加强内存数据的抗物理攻击能力,进一步提升云上数据的安全水位,用户无需对操作系统或应用进行任何改动,即可享受到更高一层的安全防护。


同时,基于英特尔第四代至强可处理器的 g8i 实例还实现了机密虚拟机能力 TDX 在云上的实践,无需用户二次开发即可将现有应用迁移至受 TDX 保护的实例。阿里云和 Intel 在 TDX 的架构设计、功能验证、安全分析和性能优化等方面均进行了紧密的合作,并实现了 TDX 技术在云上的首次应用。目前,阿里云在全球范围内实现了该能力的首发,这将推动机密计算的通用化和平民化,并与可信技术一起成为未来云上服务器的标准能力。

行进在云普惠的路上:天花板远未到达


过去 14 年的发展历程中,阿里云的弹性计算演进史可以概括为云计算技术的普惠历程、算力的普惠历程,这对当今处在人工智能风暴中的企业而言具备极大的场景价值。


时至今日,云所带来的已经不单单是运维优势,性能提升的背后蕴含着的是巨大的成本优势。随着阿里云这样的云厂商在核心技术层面不断做出突破,将会有越来越多的企业愿意深度用云。


在政策方面,数字中国建设、东数西算等都将云计算放到了非常重要的位置。未来十年,在多方利好因素促成之下,我们有理由相信云计算将进入普惠发展期。


所以,云效益的天花板远未到达,有些人尚未触顶,有些人在不断突破极限。

2023-03-27 14:093333

评论

发布
暂无评论
发现更多内容

Oracle Sql性能优化

大数据技术指南

oracle 大数据 28天写作 3月日更

智慧公安二维码定位报警系统开发,微警务平台解决方案

源中瑞-龙先生

二维码定位报警系统开发 智慧公安 智慧公安扫码

拍乐云创始人&CEO赵加雨:深耕18载,打造全景式音视频服务

拍乐云Pano

音视频 WebRTC 在线教育 RTC 实时通信

SDK 是如何存储事件数据的?

神策技术社区

ios 大数据 存储 数据采集 神策数据

跟公司新招的这个“同事”搭档,工作搬砖太“自动化”了

华为云开发者联盟

华为 AI RPA 自动化 员工

电商千万级交易的金手指:分布式事务管理

华为云开发者联盟

微服务 事务 华为云 分布式事务管理 DTM

电影AI修复,让重温经典有了新的可能

华为云开发者联盟

AI 电影 华为云视频 视频增强 经典

第8周大作业

八达鸟

架构师训练营第十一周作业 - 命题作业

阿德儿

看故事学Redis:再不懂,我怀疑你是假个开发

华为云开发者联盟

MySQL 数据库 redis 缓存 数据

OpenKruise v0.8.0 核心能力解读:管理 Sidecar 容器的利器

阿里巴巴云原生

容器 微服务 云原生 k8s 应用服务中间件

EGG公链生态项目——EFTalk上的巴莱特定律

币圈那点事

区块链

图解堆排序

Silently9527

Java 排序算法 堆排序

沙龙报名 | 云计算进入多元架构,云原生时代的挑战与机遇

京东科技开发者

云计算 云原生

数据驱动业务:一张大屏掌控城市运行,效率提高95%

一只数据鲸鱼

物联网 数据可视化 智慧城市 智慧园区 智慧交通

C语言中“野指针”、“悬空指针”是什么?

不脱发的程序猿

c 指针 编程之路 bug 3月日更

阿里P8大牛亲自教你!一个三非渣本的Android校招秋招之路,满满干货指导

欢喜学安卓

android 程序员 面试 移动开发

多端框架开发 | 拼团商城项目开发说明

YonBuilder低代码开发平台

小程序云开发 大前端 移动终端 APP开发 多端开发

一招让Kafka达到最佳吞吐量

万俊峰Kevin

kafka go-zero Go 语言

JDK8新特性 Fork/Join 的优化

Java小咖秀

Java java8 jdk8 forkjoin fork

JVM笔记 -- 来,教你类加载子系统

秦怀杂货店

Java JVM 类加载 虚拟机

朋友,你听说过跨域吗

河磨

spring CORS 跨域

有道技术沙龙 | AI 语音交互技术在语言学习场景的实践

有道技术团队

人工智能

LeetCode题解:647. 回文子串,动态规划,JavaScript,详细注释

Lee Chen

算法 大前端 LeetCode

怎么找属于自己最优的2B增长模型?

boshi

销售管理 SaaS 七日更

带你走进与千万数据通信者共成长的“家园”

华为云开发者联盟

华为 开发者 网络 华为数据通信 社区

你遇到过哪些质量很高的 Java 面试?

张小方

Java 面试 阿里 薪资

“时间”都去哪儿了?性能调优分析方法与案例详解

京东科技开发者

数据库 客户端

【LeetCode】不同的子序列Java题解

Albert

算法 LeetCode 28天写作 3月日更

阿里P8大牛亲自讲解!2021年Android网络编程总结篇,醍醐灌顶!

欢喜学安卓

android 程序员 面试 移动开发

寻找被遗忘的勇气(十七)

Changing Lin

3月日更

后摩尔定律时代,如何提升云效益的天花板_服务革新_赵钰莹_InfoQ精选文章