写点什么

后摩尔定律时代,如何提升云效益的天花板

  • 2023-03-27
    北京
  • 本文字数:3475 字

    阅读完需:约 11 分钟

后摩尔定律时代,如何提升云效益的天花板

在摩尔定律失效的今天,各行各业对算力的需求却空前膨胀。大数据、AI 等趋势方兴未艾,生命科学、智能制造等行业的深度数字化,也给数据处理的规模和性能带来更高要求。


云作为如今数字经济的基础设施,承载着海量的应用。云厂商不得不思考,如何才能更好地满足客户对数据处理效率越来越高的要求,对算力性能、性价比越来越高的要求?


在摩尔定律失效的今天,当前云上的企业是否已经触碰到了云效益的天花板?云厂商可以做点什么,来突破传统计算架构下对算力的限制?作为一种新型的计算服务提供模式,云服务器所提供的性价比如何超越自建数据中心?


本文,InfoQ 于阿里云第八代企业级实例 g8i 正式发布之际,采访到了阿里云弹性计算产品总监王志坤和阿里云高级产品专家姬少晨,试图寻求上述问题的答案。

死磕“性能”,软硬一体化重塑计算架构


3 月 24 日,阿里云发布第八代企业级实例 g8i。其依托于 CIPU+ 飞天的技术架构,搭载第四代英特尔至强处理器(代号 Sapphire Rapids,SPR),全核睿频 p0n 达到 3.2GHz,相比上一代实例,整机核密度提升 50%,性能提升 60% 以上。


存储方面,IOPS 最高达 100 万,全面适配 NVMe 云盘,存储延时低至百微秒,同时支持共享盘。网络方面,全面升级至配阿里云自研 eRDMA 大规模加速能力,g8i 是业界首个具备大规模弹性 RDMA 加速能力的计算实例,网络延时最低 8 微秒,为数据库、大数据等常见应用带来进一步的性能跃升。


这种算力服务水平的不断提升,效益的不断突破,从何而来?


从阿里云弹性计算的一路演进来看,答案很明确:软硬一体化,甚至尝试重构传统计算架构。具体到本次 ECS g8i 实例,其表现为基于“飞天 +CIPU”架构。


如今,软硬一体化成为所有云厂商共同的方向。如果将时间倒退到 2017 年,阿里云是孤独的。


以往,企业选择上云主要是希望通过其进行商业模式的创新,云计算弹性、灵活、免运维的原始特点降低了企业的初始建设门槛,虽然这牺牲了一部分性能,但在当时的商业环境下,这样的性能损失与其带来的商业价值相比并不关键。


后来,随着越来越多的企业上云,性能损耗问题越来越突出。为了解决这一问题,阿里云相关研发团队于 2017 年推出业内首款计算虚拟化损耗为零的神龙弹性裸金属服务器,深度融合了物理机和虚拟机特性,标志着神龙架构的诞生。


45 天之后,亚马逊云科技在地球另一端发布了自研的云服务器硬件——Nitro。


自此,云厂商开始深入硬件领域,战场开始发生转移。


2019 年 9 月,阿里云正式发布第三代自研神龙架构,用户能在云上获得超越传统物理机 100% 的计算能力。2021 年,第四代神龙架构诞生,具备业界首个大规模弹性 RDMA 加速能力。2022 年,神龙架构全面升级为 CIPU,可实现对计算服务器即插即用,对数据中心内部的云计算体系架构进行改革创新,从以 CPU 为中心的体系架构进入以飞天操作系统 +CIPU 为中心的体系架构。


如今,云计算所能提供的优势不单单是免运维,而是性能也就是性价比的全面提升。ECS g8i 的发布让这种能力更加普惠,让大部分云上用户都可以感受到云平台本身的性能跃迁。

普惠 eRDMA 加速能力,突破场景化性能极限


ECS g8i 实例的发布也标志着阿里云自研 eRDMA 能力的全面商业化,这也是本次第八代实例 g8i 的性能大杀器之一。eRDMA 能够大幅提升大规模计算通信效率,并且能够随着阿里云的集群规模动态扩展,轻松构建大规模 RDMA 高性能计算网络。


RDMA(Remote Direct Memory Access)是一种高性能网络传输技术,可将数据直接从一台计算机的内存传输到另一台计算机,数据传输不经过 CPU。相比传统 TCP 网络,RDMA 能够大幅减少 CPU 的开销,并降低网络互联带来的通信延迟,有助于在云上处理更大数据量的应用。


然而,搭建 IB (InfiniBand) 和 RoCE(RDMA over Converged Ethernet)等主流 RDMA 方案,存在部署周期长、维护成本高、使用门槛高和无法大规模组网等弊端,同时与现有 TCP 网络不兼容。企业需要购置昂贵的专用设备,并对应用做改造,才能用上 RDMA 能力。


阿里云通过自研的 CIPU,基于云上通用设备,研发出“弹性 RDMA”,简称 eRDMA。相较于传统 TCP 网络,eRDMA 具有更高性能,同时消灭了上述弊端。


基于 CIPU,eRDMA 与云上 VPC 共享同一张网络,用户可以随开随用具有 eRDMA 能力的实例;现有 Redis、Spark、AI、HPC 等应用,通过阿里云提供的接口,即可一键适配,最大程度降低企业的使用难度。同时,企业的大规模分布式计算应用将更加高效,能够以更低的成本在更短的时间内处理更大规模的数据量。


与此同时,芯片厂商的王牌代表英特尔,也在用自身的方式,正在打破摩尔定律失效的魔咒。他们给出的方式,是 CPU 内置多种加速器——让 CPU 不仅仅承担通用计算的功能,而是变得擅长更多垂直场景。


第四代英特尔至强可扩展处理器所配备的硬件原生加速器,搭配上阿里云的 eRDMA 能力,更是使 g8i 在大数据和数据库等场景下的性能大幅提升。


“英特尔已经不是一家传统的 CPU 厂商,它也在积极地向云转型,而通过硬件辅助的虚拟化带来的性能优势是巨大的。阿里云每年都会与英特尔保持高密度的沟通,双方就如何让云计算更加普惠做深入合作,而只有当云本身达到一定的体量,这种合作的规模化效益才能展现出来,实现双赢。”王志坤表示。


阿里云弹性计算产品线负责人张献涛表示,阿里云 CIPU+ 飞天的技术架构与第四代英特尔® 至强®可扩展处理器的强强联合下,阿里云第八代企业级实例 g8i 规格族性能最大提升了 60%,叠加第四代英特尔® 至强®处理器的加速器,在大数据、数据库等场景实现了数倍级性能提升,进一步为客户实现降本增效;同时,双方就机密虚拟机能力 TDX 在云上的实践进行了深度的技术合作,相信在双方的持续紧密合作之下,将会给更多各行业的客户带来更具性价比的技术红利。

卷安全:将机密计算拉下神坛


在性能得以持续攀升的背后,云厂商必须死守安全底线,否则皆是空谈。


安全方面,本次发布的 ECS g8i 实例支持可信计算与加密计算等特性,默认内存加密(TME),并率先支持机密虚拟机 TDX(Intel® Trusted Domain Extension)能力。


随着云计算的大规模部署,机密计算旨在允许将云提供商从可信计算基础(TCB)中移除,以便只有硬件和受保护的应用程序本身在可信边界内。这使得客户可以放心地、安全地将业务负载转移到公有云上。然而,过去多年,机密计算对用户来说始终是一种“看得着,摸不着”的存在。


在工程落地层面,主流的机密计算技术方案要么对应用具备较大侵入性,要么性能会做出较大牺牲。作为亚太地区最早部署机密计算的云厂商,阿里云一直在持续推广可信与机密计算技术以为客户的数据提供更好的保护。


ECS g8i 实例成功将机密计算“拉下神坛”,其全量搭载安全芯片 TPM 作为硬件可信根,实现服务器的可信启动,确保零篡改;虚拟化层面,支持虚拟可信能力 vTPM,提供实例启动过程核心组件的校验能力。在实例可信的基础上,配合英特尔硬件 TEE 能力和内存加密 TME (Intel® Total Memory Encryption) 技术,以及阿里云自研的加密计算隔离环境 enclave,ECS g8i 实例进一步实现数据的可用不可见,为大型互联网、新金融、医疗保健、知识产权等业务场景提供了更高安全等级数据保护能力和云上可信运行环境。


内存加密 TME 技术是新一代 ECS g8i 实例独具的全新安全加密技术。在该技术的加持下,ECS g8i 实例默认全内存加密,加强内存数据的抗物理攻击能力,进一步提升云上数据的安全水位,用户无需对操作系统或应用进行任何改动,即可享受到更高一层的安全防护。


同时,基于英特尔第四代至强可处理器的 g8i 实例还实现了机密虚拟机能力 TDX 在云上的实践,无需用户二次开发即可将现有应用迁移至受 TDX 保护的实例。阿里云和 Intel 在 TDX 的架构设计、功能验证、安全分析和性能优化等方面均进行了紧密的合作,并实现了 TDX 技术在云上的首次应用。目前,阿里云在全球范围内实现了该能力的首发,这将推动机密计算的通用化和平民化,并与可信技术一起成为未来云上服务器的标准能力。

行进在云普惠的路上:天花板远未到达


过去 14 年的发展历程中,阿里云的弹性计算演进史可以概括为云计算技术的普惠历程、算力的普惠历程,这对当今处在人工智能风暴中的企业而言具备极大的场景价值。


时至今日,云所带来的已经不单单是运维优势,性能提升的背后蕴含着的是巨大的成本优势。随着阿里云这样的云厂商在核心技术层面不断做出突破,将会有越来越多的企业愿意深度用云。


在政策方面,数字中国建设、东数西算等都将云计算放到了非常重要的位置。未来十年,在多方利好因素促成之下,我们有理由相信云计算将进入普惠发展期。


所以,云效益的天花板远未到达,有些人尚未触顶,有些人在不断突破极限。

2023-03-27 14:093418

评论

发布
暂无评论
发现更多内容

鸿蒙轻内核源码分析:文件系统FatFS

华为云开发者联盟

鸿蒙 Fat 文件系统 鸿蒙轻内核 FatFS

营销MM让我讲MySQL日志顺序读写及数据文件随机读写原理

华为云开发者联盟

MySQL 磁盘 数据读写 日志顺序读写 数据文件随机读写

java培训:Java堆和栈区分出来的原因

@零度

JAVA开发

15倍提升 & 40倍存储优化,TDengine在领益智造的实践

TDengine

数据库 大数据 tdengine 开源 物联网

云原生时代,软件交付有何不同 | 研发效能提升36计

阿里云云效

阿里云 云原生 持续交付 云平台 研发

带你读AI论文:NDSS2020 UNICORN: Runtime Provenance-Based Detector

华为云开发者联盟

漏洞 apt APT攻击 UNICONRN 数据来源分析

Hive往表写入数据的八种方法

编程江湖

字节、阿里等大厂的技术如何?看看这些Java程序员的自学笔记

进击的王小二

程序员 面试

经验分享 | TDengine在智能船舶领域的实践手册

TDengine

数据库 大数据 tdengine 物联网 时序数据库

做到这4点,才是真正的持续交付| 研发效能提升36计

阿里云云效

阿里云 云原生 持续交付 云平台 研发

11亿条数据压缩到12GB,TDengine在陕煤矿山项目的落地实践

TDengine

数据库 大数据 tdengine 开源 物联网

vivo直播应用技术实践与探索

vivo互联网技术

RTMP 直播技术

知名云计算厂商云宏加入龙蜥社区,共同打造信息安全坚实“地基”

OpenAnolis小助手

云计算 Linux 开源 社群运营

使用JMX Exporter监控Rainbond上的Java应用

北京好雨科技有限公司

Mybatis常用注解中的SQL注入

编程江湖

新年开工新气象|OceanBase 祝大家开工大吉!

OceanBase 数据库

开源 OceanBase 社区版 开工大吉

混合云模式下,如何定义一款好的 API 网关

API7.ai 技术团队

流量控制 api 网关 微服务治理 Apache APISIX

Lazada 容器深度优化之旅

阿里巴巴终端技术

容器 优化业务 客户端开发 移动应用开发

Swagger通过拦截器(Interceptor)配置默认请求头

为自己带盐

swagger 2月月更

react源码解析2.react的设计理念

buchila11

React React Hooks

构建制品不一致,后续工作都是白费 | 研发效能提升36计

阿里云云效

阿里云 云原生 持续交付 云平台 研发

JVM进阶(十三):阶段学习回顾

No Silver Bullet

JVM 2月月更 回顾

蚂蚁大规模 Kubernetes 集群无损升级实践指南【探索篇】

SOFAStack

云原生 etcd #Kubernetes# #k8s SIGMA

DDD[0]·序

陆乘风

领域驱动设计 领域驱动设计DDD 领域驱动设计思想

Nodejs内置模块path与fs模块简单使用

编程江湖

nodejs

教你从零搭建Web漏洞靶场OWASP Benchmark

华为云开发者联盟

渗透测试 漏洞 安全测试 漏洞靶场

你使用的是数据结构还是对象?

蜜糖的代码注释

Java 后端开发 2月月更

HarmonyOS canvas绘制“飞机大战”小游戏,真香!

HarmonyOS开发者

HarmonyOS

前端培训:分享web前端面试“区别”题

@零度

前端开发 前端面试

Spring Boot Serverless 实战系列 | 性能调优

Serverless Devs

springboot Java web 2月月更

阿里巴巴移动技术 2021 年终盘点

阿里巴巴终端技术

ios android 客户端 移动应用开发 年终盘点

后摩尔定律时代,如何提升云效益的天花板_服务革新_赵钰莹_InfoQ精选文章