硬核干货——《中小企业 AI 实战指南》免费下载! 了解详情
写点什么

存储系统设计中的二八定律

  • 2015-01-07
  • 本文字数:1144 字

    阅读完需:约 4 分钟

二八定律又名帕累托法则、不平衡原则等,它是一种不均匀分布的理论,已被广泛应用于社会学、企业管理学以及经济学中。同样,该定律也适应于计算机科学领域,如应用负载、磁盘访问、存储系统设计等也都是不均匀的随机分布。近日,存储服务初创公司 Coho Data 的联合创始人兼 CTO Andy Warfield 发表了一篇关于在存储系统设计中二八定律应用的博文。在博文中,Andy Warfield 对二八定律进行了介绍,并指出 Facebook 为大规模的应用程序而设计的存储系统也利用了这种原理。

Andy Warfield 指出他们首先对最近 11 个开发者的台式机存储数据进行了为期一年的跟踪记录,这些记录包括大概 76 亿次的 IO 操作和在 5TB 存储数据上进行的超过 28TB 传输量。Andy 通过初始容量与时间比例分析发现,这些数据很不均匀,如 11 台台式机上共存储有 5.1TB 的数据,这其中还有 627GB(大约 21%)的数据在一个月内很少被访问,3.1TB 的数据在整整一年中没有被访问, 如下图所示:

通过以上分析结果图,Andy 还得出了以下两个新观点:

首先,使用 LRU (最近最少使用算法)作为一个填充快速内存的模型能够估算来自服务(或缓存)的请求比例。另外,随着将快速存储介质添加到系统中,访问命中率也在增长。

其次,通过该图还可以计算出基于访问的标准成本,而不是基于每 GB 的存储成本。伴随着缓存的不停增加,访问命中率却在下降。要实现 100% 的命中率所花费的金钱是最初使用最小高速缓存而实现 35% 命中率所花费的 11 倍多。因此,数据访问的成本将会变得更加昂贵。

关于如何解决分布不均匀的问题,Andy 认为不应该把资金花费在提高冷数据的访问性能上,而应该将资金花费在如何提高热数据的访问性能上。

Andy 认为当前的存储领域也发生了巨大变化,固态存储已不单单有 SATA/SAS SSD、PCIe/NVMe 和 NVDIMM 三种选择,且每个选择的成本和性能都有很大的差别。因此,即使没有磁盘,存储系统仍需要混合介质,只有通过混合形式才可以实现高性能与卓越的价值。一个混合存储系统仍然需要使用磁盘,且应该把热数据存储在高性能的内存中。同样,一个全闪存阵列 AFA 可能由三个甚至更多不同类型的混合存储介质。为了最大程度地提高混合存储的性能,Andy 还研究了一个新算法

最后,Andy 还指出不均匀分布的广泛性以及正因为二八定律才使得系统设计能够服务于最受关注的事物上(如高速公路和农村公路、核心互联网路由器、中心城市交通运输系统等的设计),并提供高性能的服务。对于存储系统的设计也不例外,构建存储系统尤其需要细心地对工作负载进行响应式分析,以确定存储规模并满足实际应用的需要。


感谢郭蕾对本文的审校。

给InfoQ 中文站投稿或者参与内容翻译工作,请邮件至 editors@cn.infoq.com 。也欢迎大家通过新浪微博( @InfoQ )或者腾讯微博( @InfoQ )关注我们,并与我们的编辑和其他读者朋友交流。

2015-01-07 03:385466
用户头像

发布了 92 篇内容, 共 50.7 次阅读, 收获喜欢 5 次。

关注

评论

发布
暂无评论
发现更多内容

数据可溯破局!iVX 可视化调试如何改写 AI 编程规则

代码制造者

AI编程

中国联通网络资源湖仓一体应用实践

Apache Flink

大数据 flink 实时计算 实时湖仓 实时分析

最佳实践:RunnerGo API性能测试实战与高并发调优

数据追梦人

什么是DNS缓存?怎么清理DNS缓存?

国科云

SQLShift 全新上线:Oracle→OceanBase 迁移利器

爱可生开源社区

oracle dba 存储过程 oceanbase

国内首个「混合推理模型」Qwen3深夜开源,盘点它的N种对接方式!

王磊

龙蜥大讲堂浪潮信息专场精彩预告来袭,解锁AI解决方案、安全、eBPF等技术新进展

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥大讲堂 OpenAnolis

文献解读-The chromosome-scale genome of the raccoon dog: Insights into its evolutionary characteristics

INSVAST

生物信息学 Sentieon 变异检测 全基因组测序 生物信息分析服务

深入解析 Spring AI 系列:解析函数调用

不在线第一只蜗牛

人工智能 spring

Taro on Harmony :助力业务高效开发纯血鸿蒙应用

京东科技开发者

Msty一键搞定:让Qwen3带着知识库在你的电脑上奔跑

JustYan

人工智能 本地部署 RAG知识库 Qwen3

通义灵码 CCF 算法大会首秀,解码研发智能落地「黄金三角」| 文末领取PPT

阿里巴巴云原生

阿里云 云原生 通义灵码

一文搞懂国际化:架构设计

量贩潮汐·WholesaleTide

架构 国际化

实力 “出圈”:龙蜥新增多个行业标杆,富滇银行、小红书、国网蒙东电力等在列

OpenAnolis小助手

操作系统 龙蜥社区 OpenAnolis

蚂蚁数科发布金融智能体开发平台Agentar 内测上线超百个金融MCP服务

Lily

局域网视频会议软件BeeWorks Meet

BeeWorks

即时通讯 IM 私有化部署 局域网视频软件

iVX 引领软件开发进入 “可视化逻辑时代”

代码制造者

呼声超高的 TiDB 性能调优最佳实践来啦,这些“绝招”让你事半功倍!5 月 29 日,TiDB vs MySQL 线上 Meetup 第四期,欢迎 TiDBer 们参与!转发海报参与 TiDB Chaos Mesh 马克杯抽奖!

TiDB 社区干货传送门

MySQL 数据库 SQL优化 TiDB

金仓数据库:在网信领域持续打造有竞争力的产业生态

科技热闻

自己写插件-实现时间戳自由

京东科技开发者

企业级私有化部署,内部聊天软件

BeeWorks

即时通讯 IM 私有化部署 企业级应用

45分钟从零搭建私有MaaS平台和生产级的Qwen3模型服务

GPUStack

大模型 模型推理 Qwen GPU集群 Qwen3

A2A与MCP:理解它们的区别以及何时使用

数据追梦人

点面结合发展 龙蜥社区第 32 次运营委员会会议圆满结束

OpenAnolis小助手

开源 操作系统 龙蜥社区 OpenAnolis

谷歌云 | AI驱动医疗健康变革:智能代理、增强搜索与关键平台深度解读

Cloud Ace 云一

人工智能 生命科学 谷歌云 健康医疗

稳定币迎来ChatGPT 时刻,如何驱动DeCloud?

PowerVerse

defi 稳定币 DeCloud

通义灵码 CCF 算法大会首秀,解码研发智能落地「黄金三角」| 文末领取PPT

阿里云云效

阿里云 云原生 通义灵码

怎么用drawio一键生成图表?drawio必备的使用技巧盘点!

职场工具箱

人工智能 drawio 办公软件 AIGC Ai绘图

云交易技术对接全景

京东科技开发者

Java 开发效率天花板被打破!飞算 JavaAI 如何做到「代码生成即生产级」?

飞算JavaAI开发助手

详细剖析Java动态线程池的扩容以及缩容操作

电子尖叫食人鱼

Java

存储系统设计中的二八定律_语言 & 开发_李士窑_InfoQ精选文章