写点什么

你需要知道的关于高 IO EC2 的事儿

  • 2019-11-11
  • 本文字数:2249 字

    阅读完需:约 7 分钟

你需要知道的关于高IO EC2的事儿

作者:焦杨

故事背景

笔者长期在 AWS 从事架构师工作,人送焦导的外号。经常遇到客户抱怨:“我选了比原来大的机器,比原来快的硬盘,可 EC2 的 IO 怎么就是上不去,到底卡在哪里了啊?你们架构师到底怎么干活的啊?”,好了,今天我也不想再背这个锅了,我们一起把这个事儿好好说道说道。

基本原理

一开始,我们先来看看磁盘上的数据是怎么到达外网的。



第一步操作系统接到 IO 命令,然后驱动磁盘,从磁盘上读入数据到内存处理, 最后从网卡送出,通过交换机路由器送出到外部网络。 要更好的 IO 性能,硬件层面上看无非三板斧


  • 换个更块的硬盘

  • 换个更快的网卡和交换机

  • 更快的 CPU、足够的内存、足够优化的


那到了 AWS 上,又变成什么样了呢?


  • 云上的图



你可能看出来了:


  • 物理机变成了 EC2 instance。

  • 磁盘为了更灵活和更可靠,把它从机器里拿出来变成了 EBS。

  • 外部的交换机/路由器由于 VPC 的存在,对用户变成透明的了。


稍微想想,发现实质完全没有变化。那是不是我们就可以用原有的三板斧解决性能问题了呢?


焦导的回答是:“完全没错,但是不足够”。


大家知道,公有云服务商为了保证服务质量,避免所谓的“吵闹的邻居”问题,也为了避免意外操作导致的超额费用,引入了大量的 QoS 特性。这里边既有我们熟悉的各个 service 的 hard 和 soft 的 limit,也有对外暴露的各种配置选项。为了要实现高 IO 的目的,我们有必要对这些 QoS 特性有清晰的了解。


还是上边的那个图,把其中的关键部分标上号,下边一一说明

列举分析

1. EC2 网络

AWS 向客户提供 SDN 的 VPC 网络,屏蔽了交换机、路由器等网络基础设施。但是对单个 EC2 实例的网络出口带宽是有明确的限制的。



你可能会说这不就是网卡限制吗?多加几个网卡不就行了。


请注意,增加多个网卡并不能增加单个 EC2 的总出口带宽。


更加详细的数据请查看这里http://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/ebs-ec2-config.html

2 存储网络

默认情况下,刚才提到的 EC2 总带宽,包含了进出 EC2 实例的所有流量。熟悉网络的同学应该知道,这里边包含了 EC2 间的计算流量、访问存储设备的存储流量等的各种流量。


要优化性能,拿出单独的网络来走存储流量就可以了。这也就是我们通常说的计算、存储流量分离技术。在 AWS 里,我们把这个叫做”EBS 优化“。



当然了,对于一些早期机型(i2,c3 等),在使用了万兆网络的情况下。因为这根管子已经足够粗,流量混在一起问题也不是很大。


EC2 机型 EBS 优化的更多信息,可以在这里找到http://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/ebs-ec2-config.html

3 磁盘性能

要想获得高 IO,选择合适的磁盘应该是最基本的了吧。是看重 IOPS 而选择 SSD 型,还是看重连续读写的磁盘吞吐而选择 HDD,这是你要做出的关于磁盘的第一个决定。



这里要特别注意的几个点:


  • 单卷 IOPS 的具体值和容量正相关,对于 GP2 而言,基准值为 3IOPS/GB

  • 对单卷有 IOPS 和吞吐量的限制, 两个因素同时起作用

  • 对连接了多个卷的实例,总体 IOPS 和吞吐量也分别有限制


另外需要注意的是,对于使用最多的 GP2 类型 SSD,存在着读写突增特性(链接),无论多小的磁盘短时间内 IOPS 都可以到达 3000,具体就不再展开说了。 参考这里http://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/EBSVolumeTypes.html

4 存储队列

卷存储队列是指等待设备处理的 I/O 请求的队列,它的长度表明了有多少 I/O 请求还没有得到执行。队列过长,读写延迟加大,队列过短,读写任务不饱满。要让 EBS 全速工作起来,需要有足够的任务,也就是说要让 EBS 始终处于忙碌的状态。


基于这个认识,有必要根据工作负载的具体状况,实时观察存储队列长度的情况。对工作负载进行适当调整,以便发挥底层设备的最大能力。


这个指标可以通过 Cloudwatch 的 VolumeQueueLength 来观察。 http://docs.aws.amazon.com/zh_cn/AWSEC2/latest/UserGuide/ebs-io-characteristics.html

综合和特例

还有一些特殊的情况也值得拿出来说一下: 如果我们特别在意存储网络的带宽的限制,完全可以使用带有 instance-storage 的实例类型,比如 i 系列和 d 系列。存储在本地,通过本地总线连接,就没有这个存储网络的限制啦。


某些情况下,追求极致的 IOPS,也可以考虑使用条带化技术将多个卷合起来一起使用。


另外,如果我们的流量模型为从磁盘上一次读出,在计算节点上向多个 client 分发,简单的说就是具有 fan-out 效果的话,碰到瓶颈的地方大概率应该在 EC2 intance 的流出限制之上,而不是存储网络限制。

总结

总结一下,要获得期望的高 IO。你需要准备


  • a. 合适的磁盘类型,磁盘个数,保证你需要达到 IO 在单卷和总卷限制范围以内。

  • b. 足够快的从磁盘到 EC2 的高速网络

  • c. 足够大的机型,以带来足够的 inbound/outbound。

  • d. 适当的存储队列,保证磁盘够忙


好了,需要知道的所有关于 EC2 的 IO 性能的秘籍都在这儿了,马上动手,去榨干你购买的 EC2 的所有潜能吧。


作者介绍:



焦杨,AWS 解决方案架构师,IT 行业老兵,在 Moto,NEC,路透,汉柏,AWS 等国内外企业从业 10 余年。2011 年之前,从事过 web container, EJB container 和大型网站的后台研发工作,醉心于 OO 和设计模式。2011 开始着手基于 oVirt 和 Openstack 的私有云平台研发工作,并亲密接触 SDN,关注点随之转移到基础架构、分布式和高可用,自此自诩全栈工程师。 2015 年加入 AWS,担任解决方案架构师,负责基于 AWS 的云计算方案架构的咨询和设计工作。


本文转载自 AWS 技术博客。


原文链接:


https://amazonaws-china.com/cn/blogs/china/what-you-need-to-know-about-high-io-ec2/


2019-11-11 08:00875

评论

发布
暂无评论
发现更多内容

Text2SQL准确率暴涨22.6%!3大维度全拆

京东科技开发者

星空开源MES(万界星空科技)——专业、通用、开源、免费的MES系统

万界星空科技

开源软件 mes 开源mes mes源码 万界星空科技mes

突围能源管理难题:MyEMS 开源方案的实战智慧

开源能源管理系统

开源 开源能源管理系统

浪浪山小妖怪逆袭记:低代码打造基层数字化转型超能力

中烟创新

万力轮胎36亿柬埔寨橡胶轮胎项目的RFID技术真相

斯科信息

斯科信息 RFID技术 RFID标签

海外舆情监测如何成为品牌建设的“导航仪”

沃观Wovision

企业出海 海外舆情监控 沃观Wovision

利用BERT模型提升语音识别重排序效果

qife122

深度学习 语音识别

等保测评流程全解析:步步为营筑安全

等保测评

等保 2.0:开启网络安全防护新篇章

等保测评

从VMware到国产超融合:解析企业虚拟化转型的必经之路

智驱前线

vmware 国产超融合

MCP神器!MCP-USE 一键部署连接任何MCP服务器

程序员海军

AI+ AIGC MCP MCP Server

MyEMS:用开源智能破解能源管理难题,从车间到园区的全场景实践

开源能源管理系统

开源 能源管理系统

活动报名:出海增长,从 0 到 1,从 1 到 100、1000 一次性完整分享!丨RTE Meetup

声网

AI对齐审计代理技术解析

qife122

AI对齐 模型测试

InQL Scanner:GraphQL安全测试利器

qife122

graphql Burp Suite

解码芯安全,天翼云红盾实验室筑牢“芯”防线!

天翼云开发者社区

安全 天翼云

“文件自由”的鸿蒙实践:两个独立开发者与《流舟文件》的破局之旅

最新动态

.NET AI强势崛起

秃头小帅oi

【灯塔计划】 浏览器崩溃的第一性原理:内存管理的艺术

京东科技开发者

DAPP的外包开发流程

北京木奇移动技术有限公司

dapp开发 区块链开发 软件外包公司

CST如何在仿真之后添加场监视器继续计算

思茂信息

cst电磁仿真 CST软件 CST Studio Suite

从海外热帖到政策风向:境外舆情如何指导出海战略?

沃观Wovision

海外舆情监控 沃观Wovision 舆情监测系统

虚引用GC耗时分析优化(由 1.2 降低至 0.1 秒)

京东科技开发者

VMware 用户如何应对订阅制涨价?超融合能否成为最优替代方案?

智驱前线

观测云产品更新 | RUM、APM、场景、监控、管理等

观测云

产品迭代

Sentieon 项目文章 | 一例中国男童及139例Pearson综合征患者的临床和遗传特征

INSVAST

基因数据分析 生信分析 Sentieon 精准医疗 线粒体DNA

MyEMS:开源驱动,重塑智能能源管理新范式

开源能源管理系统

开源 能源管理系统

持续领跑,再获殊荣!

天翼云开发者社区

云计算 政务云 天翼云

Cookie、Session、Token、JWT 是什么?万字图解带你一次搞懂!看完这篇,你连老奶奶都能教

左诗右码

区块链U卡APP的外包开发

北京木奇移动技术有限公司

区块链开发 软件外包公司 web3开发公司

Nexa SDK 支持本地运行 Kokoro 等语音模型;AI 猎头智能体 Standout:给 AI 打电话找工作丨日报

声网

你需要知道的关于高IO EC2的事儿_语言 & 开发_亚马逊云科技 (Amazon Web Services)_InfoQ精选文章