写点什么

AWS 正式把 KVM 投入使用 你需要知道些什么?

  • 2017-11-09
  • 本文字数:2946 字

    阅读完需:约 10 分钟

如之前 InfoQ 中文站所报道, AWS 在 11 月 6 日推出新的实例类型 C5 ,其中采用了新的虚拟化引擎——一款 AWS 自家定制的 KVM。这可能意味着 AWS 从 2006 年启动时就开始使用并持续优化至今的 Xen 技术栈,将逐渐淡出这一体量庞大的云计算平台。

关于 Xen 与 KVM

Xen 最早是剑桥大学的一个研究项目。该项目在 2003 年以开源协议发布后,先后经历了 XenSource 公司、Citrix 公司、Linux 基金会等组织的领导,其技术阵营包含了 Citrix、IBM、Intel、HP、Novel、红帽、Sun、Oracle、Amazon、AMD、Bromium、CA Technologies、Calxeda、Cisco、Google、三星、以及 Verizon 等业界巨头。

KVM(Kernel-based Virtual Machine,直译为“基于内核的虚拟机”),最早是以色列初创企业 Qumranet 发布的开源项目。该项目在 2007 年被合并入 Linux 内核代码——这对 KVM 而言是非常重要的一个节点,该公司则在 2008 年被红帽收购。KVM 技术差不多到 2010 年之后进入成熟阶段,该技术阵营目前包括红帽、SUSE、Linaro(ARM)、IBM、Intel、Google、Oracle 等业界巨头,国内的华为、阿里巴巴、腾讯等也均有参与。

在 AWS 启动的 2006 年,Xen 还是当时最成熟的虚拟化引擎技术(对于 Linux 操作系统而言),而 KVM 项目还没有出现在大家的视野中。因此,AWS 在早期技术选型当中采用了 Xen,成为其弹性计算的底层基础。(此外,2009 年启动的阿里云也因为当时 KVM 还不成熟的原因采用了 Xen,不过两家一直未停止过对 KVM 的关注与投入,阿里云更是在数年前就已经推出了基于 KVM 的主机。另外,2011 年启动的 Google Cloud 从一开始就采用了 KVM 引擎。)

AWS 的用户需要知道什么?

首先,AWS 的用户现在已经可以将自己跑在 C4 实例上的主机切换到 C5,前提是:

  • 现在已经推出 C5 的区域有 US East (Northern Virginia)、US West (Oregon)、EU (Ireland) Regions,目前要用 C5 的话只能在这三个区,其他区还得等等。
  • AMI 镜像的操作系统必须包含 ENA 和 NVMe 的驱动,因为 C5 的网络和存储功能是在硬件层面实施的。AWS 平台上提供的最新版 AMI 镜像,包括 Amazon Linux、Microsoft Windows (Windows Server 2012 R2 以及 Windows Server 2016)、Ubuntu、RHEL、CentOS、SLES、Debian、FreeBSD,现在都支持。同理,如果你制作自己的 AMI,也是一样的要求。

Reddit 网站上已经有用户在分享自己的切换过程,感兴趣的读者可以前往查看或提问。Jeff Barr 也会在那里回复一些问题。

C5 实例可以选择的实例尺寸见下表:

Instance Name vCPUs RAM EBS Bandwidth Network Bandwidth c5.large 2 4 GiB Up to 2.25 Gbps Up to 10 Gbps c5.xlarge 4 8 GiB Up to 2.25 Gbps Up to 10 Gbps c5.2xlarge 8 16 GiB Up to 2.25 Gbps Up to 10 Gbps c5.4xlarge 16 32 GiB 2.25 Gbps Up to 10 Gbps c5.9xlarge 36 72 GiB 4.5 Gbps 10 Gbps c5.18xlarge 72 144 GiB 9 Gbps 25 Gbps 其次,如果你已经用上了 C5,想用它跑一些机器学习的推断(inferencing)任务或者类似的计算任务,可以看一下这个 Intel Math Kernel Library 。C5 的处理器用的是 3.0 GHz Intel Xeon Platinum 8000 系列,这款专为 EC2 做过优化的处理器配合上面那个数学库可能会有很好的性能。

此外,C5 还增加了每个 vCPU 的内存。对于兼容 AVX-512 指令集的代码而言,矢量操作和浮点操作的性能甚至可以翻倍。

切换到 C5 之后,由于运行在新虚拟化引擎上的实例是通过 NVMe 接口从 EBS 卷上启动的,而运行在 Xen 上的实例是从一个模拟 IDE 硬盘上启动、再切换到 Xen 的半虚拟块存储驱动上的,所以虽然操作系统(OS)能够识别自己正运行在哪个虚拟化引擎上,但如果软件本身假设底层的虚拟化引擎是 Xen 并依赖于该假设,则可能会引发一些问题。

但总体来说,AWS 表示只要 OS 层面能够支持 ENA 网络和 NVMe 存储,则大部分软件都能正常工作。AWS 还表示,其他的 EC2 功能并不会受到影响。

如果你是 AWS EC2 API 的重度用户,担心这次虚拟化引擎的变更会对 API 造成什么变化,则不用担心了: AWS 在其 FAQs 页面中表示其对外公开的 API 完全不会因为引入新的虚拟化引擎而有任何改变。

KVM 在 EC2 上的正式启用对 AWS 意味着什么?

作为计算资源服务的提供方,提升性能、降低成本是永恒的话题。

Xen 最初设计时,x86 架构尚未引入虚拟化扩展功能,所以 Xen 为了实现 Linux 系统的虚拟化,就把 Linux 内核给改了——这就相当于在之后的十几年里,Xen 一直维护着一套自己的 Linux 内核版本,所以上游 Linux 内核社区的很多新的好东西,它要费一番功夫才能移植进来,这就造成了很大的维护成本。

而另一方面,因为 KVM 项目是合并在 Linux 内核代码中的,维护起来就非常容易。Linux 内核上游社区的研发势能是非常大的,在这种情况下,KVM 的发展速度迅猛,在稳定性、性能方面的提升很快赶超了 Xen,受到很多技术人与企业的青睐。

EC2 是 AWS 的基石,虚拟化引擎又是 EC2 的基石。由于 AWS 是一套构建多年的、庞大而复杂的系统,很多功能会对 Xen 有所依赖,要让这套系统同时稳定的支持 Xen 与 KVM,是一项非常复杂的工作。所以 C5 的推出,意味着 AWS 这套系统已经脱离了对 Xen 的完全依赖。

对 AWS 而言,基于 KVM 的系统要比基于 Xen 的系统的维护成本更低,这是一方面。

另一方面,可能也与性能有关。按 AWS 首席布道师 Jeff Barr在博客中所说,C5 在性价比方面相比C4 提升了25%,针对有些任务甚至可以达到50%——这是针对用户而言。要知道对于AWS 今天这样的体量,哪怕是1% 的节省都是巨大的;如果有25% 这样比例的性价比提升,则绝对是势在必行,无论花费多大代价也要上。当然这其中的性能提升有多少是来自新的硬件,有多少是来自KVM,这就不一定了。

此外,AWS 首先在“计算密集型实例”(compute-intensive)上正式采用KVM,而不是从通用型、内存密集型等其他类型上开始,可能是因为考虑到计算密集型业务的I/O 操作较少,比较独立,耦合性比较小,因此更容易替换的原因。

这次改变对于业界有什么影响?

从市场占有率的角度来看,就是Xen 的最后一个大体量的用户对Xen 说,以后我不再需要你了。

如果说以前还有业界传言说AWS 在Xen 上投入太过巨大、依赖太重,所以AWS 将一直支持Xen 的话,那么现在这个传言已经宣告终结。毕竟,如果连AWS 都以实际行动表示切换到KVM 的收益大于成本了,那么那些体量更小的Xen 用户还能对Xen 有什么更多的期待呢?

所以对于未来的市场而言,这次改变也许象征着Xen 的使命已经结束了。对于过去的市场而言,Xen 的使命就是让那些仍然跑在Xen 上的业务们能够继续平稳运行。不过这里面还有一个变数就是 Unikernel ,那就是另一个话题了。

从上游社区的角度,影响可能不大,因为 Amazon 一直不是个活跃的开源社区参与者。即使作为最大的 Xen 用户那么多年,Amazon 对 Xen 上游社区的代码贡献数量却是屈指可数。所以对于 KVM 项目,可能我们未来也不大会看到很多来自 Amazon 的代码贡献。

从技术发展的角度,这是个大趋势下技术更新换代的必然——也许从 KVM 被合并到 Linux 内核代码的那时起就已经种下了种子吧。

总结

关于 AWS 此次拥抱 KVM 的 C5 发布,目前公开的信息就总结到此。11 月 27 日到 12 月 1 日期间的 AWS re:Invent 2017,InfoQ 中文站记者会在前线报道,敬请期待!

感谢吴峰光对本文的贡献。

2017-11-09 18:013733

评论

发布
暂无评论
发现更多内容

揭秘云原生时代企业可观测体系落地实践

嘉为蓝鲸

云原生应用 云原生(Cloud Native) 可观测宇宙

Flink CDC 在易车的应用实践

Apache Flink

大数据 flink 实时计算

不懂就问,Milvus 新上线的资源组功能到底怎么样?

Zilliz

非结构化数据 Milvus Zilliz

多家大厂CTO鼎力推荐的微服务架构设计模式真的硬核

小小怪下士

Java 程序员 微服务 后端

HummerRisk V1.0 :架构升级说明

HummerCloud

开源 云安全 云原生安全

大型SRE组织设计与建设落地,且看腾讯蓝鲸如何做?

嘉为蓝鲸

腾讯 运维自动化 蓝鲸

治理告警风暴,告警降噪的一些典型手段

秦晓辉

告警风暴 告警降噪

互联网工程师Java面试题及答案整理(2023速成版,7天就能吃透)

采菊东篱下

java面试

Spring Boot 实现接口幂等性的 4 种方案

做梦都在改BUG

Java Spring Boot

python统计程序耗时 | python小知识

AIWeker

Python python小知识 三周年连更

全网已经疯传90多万次的java修炼指南!已帮我拿下11个大厂offer

做梦都在改BUG

ChatGPT,音乐,与数据库

沃趣科技

数据库 云原生 音乐 ChatGPT

阿里P7了!全靠死磕这份阿里全彩版"并发编程笔记",大厂必备!

Java你猿哥

Java 并发编程 架构师 java面试 Java工程师

【FAQ】关于华为推送服务因营销消息频次管控导致服务通讯类消息下发失败的解决方案

HarmonyOS SDK

HMS Core

Oracle 23c 新特性实操体验优质文章汇总

墨天轮

数据库 oracle sql 新版本/特性解读

Alibaba最新神作!耗时182天肝出来1015页分布式全栈手册太香了

Java你猿哥

Java 分布式 SSM框架 分布式核心原理解析 分布式开发

从「搭子」文化,看融云如何助力垂类社交应用增长

融云 RongCloud

融云 Z世代 通讯 交友 搭子

代码质量难评估?一文带你用 SonarQube 分析代码质量!

Java你猿哥

架构师 代码 SSM框架 sonar

90%的Java开发人员都会犯的5个错误

做梦都在改BUG

缓存与数据库双写一致性几种策略分析

京东科技开发者

数据库 缓存 高并发 数据一致性 企业号 4 月 PK 榜

Spring @Import注解的使用和源码分析

Java你猿哥

Java spring import SSM框架

中船互联与嘉为科技共同打造“IT运维管理”融合解决方案

嘉为蓝鲸

自动化运维 IT 运维 中船集团

多云转晴:Databend 的天空计算之路

Databend

把脉分布式事务的模型、协议和方案

小小怪下士

Java 分布式 分布式事务 后端

MySQL到ClickHouse数据同步产品对比推荐

NineData

MySQL Clickhouse dba bifrost NineData

改写同事代码——血压操作集锦第一弹

Java你猿哥

Java IDEA java编程 SSM框架 表单设计

基于 Flink CDC 的现代数据栈实践

Apache Flink

大数据 flink 实时计算

Flomesh 软负载 FLB GA 版本发布

Flomesh

负载均衡 云原生 Pipy

基于 Flink CDC 的现代数据栈实践

Apache Flink

大数据 flink 实时计算

Redis删除键命令: 新手用del,老手用unlink,有何区别?

Java你猿哥

Java redis SSM框架 Java工程师 delete

Unity 之 月签到累计签到代码实现(ScriptableObject应用 | DoTween入场动画)

陈言必行

Unity 三周年连更

AWS正式把KVM投入使用 你需要知道些什么?_亚马逊云科技_sai_InfoQ精选文章