HarmonyOS开发者限时福利来啦!最高10w+现金激励等你拿~ 了解详情
写点什么

亚马逊将自有服务数据的压缩从 Gzip 切换为 Zstd

作者:Renato Losio

  • 2022-10-09
    北京
  • 本文字数:1149 字

    阅读完需:约 4 分钟

亚马逊将自有服务数据的压缩从Gzip切换为Zstd

最近,亚马逊前副总裁Adrian Cockcroft在推文中特别指出了从 gzip 切换到 Zstandard 压缩所带来的好处,这在社区中引发了关于压缩算法的讨论。其他大公司,包括 Twitter 和 Honeycomb,也分享了使用 zstd 获得的收益。

 

最近,Dan Luu分析了推特存储节省的情况,并在推特上发起了一场对话:

我想知道 Yann Collect 创建 zstd 到底消除了多少浪费。我估算了下 Twitter 的数值(与大型科技公司相比微不足道),从 HDFS 切换到 zstd 每年节省的数量大约为 8 位数的中值。在世界范围内(非年化),这个数值应该不低于 9 位数?

 

Cockcroft 回复说:

亚马逊从 gzip 切换到 zstd,压缩 S3 存储量减少了大约 30%,达艾字节的规模。

 

Zstandard(其 C 语言实现 zstd 更为知名)是由 Facebook 公司的Yann Collet开发的无损数据压缩算法,在多种数据集上提供了很高的压缩比和非常好的性能。该参考实现库是一个遵循 BSD 许可的开源软件,它提供了一个速度极快的解码器,允许我们在速度和压缩比之间做大范围权衡。

 

起初,Cockcroft 的表述在社区中引发了质疑,一些开发人员询问亚马逊如何在 S3 上压缩客户数据。亚马逊一名内部员工澄清道

Adrian 说错了,或许是所有人都误解了他的意思。他的意思并不是说 S3 改变了存储压缩客户数据的方式。他的意思是亚马逊改变了在 S3 中存储自有服务数据(主要是日志)的方式——从 gzip 日志切换到 ztsd 日志,我们(作为 S3 的一个客户)能够将 S3 存储成本降低 30%。

 

Honeycomb 首席开发者大使Liz Fong-Jones赞同切换到 zstd:

我们不把它用于列文件,因为那太慢了,但我们把它用于 Kafka(…),在生产环境中从 snappy 切换到 zstd 后,Honeycomb 节省了 25%的带宽。(…)不仅仅是存储和计算,对我们来说,是网络。亚马逊跨 AZ 的数据传输非常昂贵。

 

Reddit一个热门的帖子中,noirknight 是众多提供正反馈的用户之一:

我的公司几年前也做过类似的事情,也看到了类似的好处。只要可能,我们都使用 zstandard,不仅仅是存储,还有其他东西,比如内部 HTTP 通信。

 

以下是用户treffer在Hacker News上的评论

速度特别快的压缩算法(zstd、lz4、snappy、lzo……)是值得我们付出 CPU 成本的,而且几乎没有什么缺点。问题在于找到最佳契合点,在不产生 CPU 瓶颈的情况下减少当前的瓶颈,不过在这方面,zstd 也提供了最大的灵活性。

 

亚马逊在一些托管服务的 API 中公开了 Zstandard 和对其他压缩算法的支持。例如,在Amazon Redshift中引入Zstandard支持后,这家云提供商针对云数据仓库开发了自己的算法AZ64。按照他们的说法,其专有压缩算法比 zstd 编码节省 5-10%的存储空间,并且速度快 70%。

 

亚马逊官方没有就其内部数据使用的压缩技术或相关的 S3 存储节省发表任何评论。

 

原文链接:

https://www.infoq.com/news/2022/09/amazon-gzip-zstd/


相关阅读:

Node.js|使用 zlib 内置模块进行 gzip 压缩

一种优于 gzip 的压缩方式 Brotli

2022-10-09 15:338229

评论

发布
暂无评论
发现更多内容

共创,共建,共赢,共荣!国云向新,翼起创未来!

天翼云开发者社区

喜讯!天翼云斩获NLP国际顶会比赛两项荣誉

天翼云开发者社区

Tapdata 的 ∞ 实践:中小企业如何轻量、高效地搭建起一个灵活易用的数字化平台

tapdata

数据库

ChatGPT+私有数据=智能知识库+个性化AI

WorkPlus

人工智能(AI)行业如此烧钱,离真正商业化还有多远,如果不商业化还能走多远? | 社区征文

迷彩

人工智能 AIGC 生成式AI 三周年征文 三周年连更

John Schulman:强化学习与真实性,通往TruthGPT之路

OneFlow

软件测试 | 接口测试工具的不足

测吧(北京)科技有限公司

测试

软件测试 | Requests库

测吧(北京)科技有限公司

测试

什么是人工智能领域模型的 temperature 参数?

汪子熙

人工智能 机器学习 深度学习 三周年连更

Kubernetes Gateway API 深入解读和落地指南

北京好雨科技有限公司

Kubernetes 云原生 rainbond 企业号 5 月 PK 榜 Gateway API

玩转云端| 解密!业内首款存储资源盘活系统如何炼成?

天翼云开发者社区

IPP SWAP孵化器LP算力系统开发技术

薇電13242772558

区块链

加快推进数智化转型,引领盐行业高质量发展

用友BIP

推荐6个我经常逛的“小网站”,嘿嘿嘿!!!

引迈信息

程序员 低代码 摸鱼 JNPF 文案

如何为 Databend 添加新的系统表

Databend

CNBPA 新成员展示 | 启明信息技术股份有限公司

云原生技术社区

云原生 云原生技术实践联盟 CNBPA

如何计算真实的数据库成本

天翼云开发者社区

聊点技术 | 全新功能,让Bonree ONE变得更强

博睿数据

可观测性 智能运维 博睿数据 Bonree ONE ONE有引力

大企业必读!五大纳税申报难题解析

用友BIP

浪潮海岳低代码平台inBuilder开源社区版特性推荐系列-第一期

inBuilder低代码平台

开源 低代码 实操

【分布式技术专题】「OSS中间件系列」Minio的文件服务的存储模型及整合SpringBoot客户端访问的实战指南

洛神灬殇

分布式 OSS Minio 三周年连更 SpringBoot-Starter

IP 地址是如何被创建和管理的?

海拥(haiyong.site)

三周年连更

数智化转型再加速,低代码开发助力企业转型

加入高科技仿生人

低代码 数智化 数字转型 数智转型

PostgreSQL JDBC 开发指导

攻城狮

postgresql JDBC 驱动程序

Flink API的4个层次

阿泽🧸

flink 三周年连更

【转载】亚信科技亮相2023移动云大会,“数智云网”助力行业转型发展

亚信AntDB数据库

AntDB AntDB数据库

九科信息参加长三角智慧港口论坛,分享港口企业超级自动化实践

九科Ninetech

iOS MachineLearning 系列(11)—— 自然语言之词句相似性分析

珲少

数据库中的 Schema 变更实现

KaiwuDB

线上直播 KaiwuDB Schema 锁表

3D点云数据集在3D数字化技术中的应用

来自四九城儿

亚马逊将自有服务数据的压缩从Gzip切换为Zstd_架构_InfoQ精选文章