写点什么

亚马逊将自有服务数据的压缩从 Gzip 切换为 Zstd

作者:Renato Losio

  • 2022-10-09
    北京
  • 本文字数:1149 字

    阅读完需:约 4 分钟

亚马逊将自有服务数据的压缩从Gzip切换为Zstd

最近,亚马逊前副总裁Adrian Cockcroft在推文中特别指出了从 gzip 切换到 Zstandard 压缩所带来的好处,这在社区中引发了关于压缩算法的讨论。其他大公司,包括 Twitter 和 Honeycomb,也分享了使用 zstd 获得的收益。

 

最近,Dan Luu分析了推特存储节省的情况,并在推特上发起了一场对话:

我想知道 Yann Collect 创建 zstd 到底消除了多少浪费。我估算了下 Twitter 的数值(与大型科技公司相比微不足道),从 HDFS 切换到 zstd 每年节省的数量大约为 8 位数的中值。在世界范围内(非年化),这个数值应该不低于 9 位数?

 

Cockcroft 回复说:

亚马逊从 gzip 切换到 zstd,压缩 S3 存储量减少了大约 30%,达艾字节的规模。

 

Zstandard(其 C 语言实现 zstd 更为知名)是由 Facebook 公司的Yann Collet开发的无损数据压缩算法,在多种数据集上提供了很高的压缩比和非常好的性能。该参考实现库是一个遵循 BSD 许可的开源软件,它提供了一个速度极快的解码器,允许我们在速度和压缩比之间做大范围权衡。

 

起初,Cockcroft 的表述在社区中引发了质疑,一些开发人员询问亚马逊如何在 S3 上压缩客户数据。亚马逊一名内部员工澄清道

Adrian 说错了,或许是所有人都误解了他的意思。他的意思并不是说 S3 改变了存储压缩客户数据的方式。他的意思是亚马逊改变了在 S3 中存储自有服务数据(主要是日志)的方式——从 gzip 日志切换到 ztsd 日志,我们(作为 S3 的一个客户)能够将 S3 存储成本降低 30%。

 

Honeycomb 首席开发者大使Liz Fong-Jones赞同切换到 zstd:

我们不把它用于列文件,因为那太慢了,但我们把它用于 Kafka(…),在生产环境中从 snappy 切换到 zstd 后,Honeycomb 节省了 25%的带宽。(…)不仅仅是存储和计算,对我们来说,是网络。亚马逊跨 AZ 的数据传输非常昂贵。

 

Reddit一个热门的帖子中,noirknight 是众多提供正反馈的用户之一:

我的公司几年前也做过类似的事情,也看到了类似的好处。只要可能,我们都使用 zstandard,不仅仅是存储,还有其他东西,比如内部 HTTP 通信。

 

以下是用户treffer在Hacker News上的评论

速度特别快的压缩算法(zstd、lz4、snappy、lzo……)是值得我们付出 CPU 成本的,而且几乎没有什么缺点。问题在于找到最佳契合点,在不产生 CPU 瓶颈的情况下减少当前的瓶颈,不过在这方面,zstd 也提供了最大的灵活性。

 

亚马逊在一些托管服务的 API 中公开了 Zstandard 和对其他压缩算法的支持。例如,在Amazon Redshift中引入Zstandard支持后,这家云提供商针对云数据仓库开发了自己的算法AZ64。按照他们的说法,其专有压缩算法比 zstd 编码节省 5-10%的存储空间,并且速度快 70%。

 

亚马逊官方没有就其内部数据使用的压缩技术或相关的 S3 存储节省发表任何评论。

 

原文链接:

https://www.infoq.com/news/2022/09/amazon-gzip-zstd/


相关阅读:

Node.js|使用 zlib 内置模块进行 gzip 压缩

一种优于 gzip 的压缩方式 Brotli

2022-10-09 15:338282

评论

发布
暂无评论
发现更多内容

深入解析RPA:概念、应用和前景一网打尽

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

从 7000 余项目脱颖而出,飞轮科技《新一代实时分析数据仓库解决方案》荣获 HICOOL 2024 全球创业大赛二等奖

SelectDB

数据仓库 数据分析 Hicool 大数据 开源

KubeCon China 2024|技术与产业双向驱动,华为云持续开源创新,加速全球智能化升级

华为云原生团队

云计算 容器 云原生

智IN共创 境界无限:2024英特尔中国学术峰会开幕

E科讯

2024 龙蜥操作系统大会参会指南抢先看

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥操作系统大会

一线实战:运维人少,我们是如何从 0 到 1 实践 DevOps 和云原生?

阿里巴巴云原生

阿里云 云原生

一线实战:运维人少,我们是如何从 0 到 1 实践 DevOps 和云原生?

阿里云云效

阿里云 云原生

终极预告!2024 龙蜥操作系统大会全议程高能来袭

OpenAnolis小助手

操作系统 龙蜥社区 龙蜥操作系统大会

基于 INFINI Pizza 为 Hugo 静态站点添加搜索功能

极限实验室

搜索引擎 Pizza

第六届金蝶云苍穹开发者大赛院校赛道圆满落幕!61支队伍获颁国家级奖项

金蝶云·苍穹

开发者大赛 金蝶 金蝶云苍穹 中国软件杯

大语言模型数据增强与模型蒸馏解决方案

阿里云大数据AI技术

人工智能 自然语言处理 通义千问 大语言模型

Quartz Plus - 基于Spring的Quartz任务调度框架扩展

redcoder54

quartz spring-boot Java development springboot整合quartz 作业调度

如何理解RPA的技术架构与原理

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

数据迁移新技能,MongoDB轻松同步至ClickHouse

RestCloud

数据库 mongodb ETL 数据集成 Click house

在 DataOps 体系建设中,主动元数据是何角色?

Aloudata

数据治理 Data 元数据 DataOps

曙光存储的“引力弹弓”,让AI向产业宇宙加速狂奔

脑极体

AI

基于Spring Initializr的Spring Boot项目脚手架rc-initializr

redcoder54

spring spring-boot Java脚手架 Java development Web App开发

天猫商品详情API:解锁商品收藏与加购信息的秘密

代码忍者

API 测试 API 策略

基于LangChain手工测试用例转Web自动化测试生成工具

霍格沃兹测试开发学社

文心智能体平台已入驻60万开发者,合作10万企业

Geek_2d6073

文档管理工具大赏:10款神器总有一款适合你

爱吃小舅的鱼

文档管理

高效规划每一天!10款免费待办事项App大揭秘

爱吃小舅的鱼

免费工具 待办事项管理

文档管理系统大比拼:找到适合你的选择

爱吃小舅的鱼

文档管理

NGINX 专业概念文章合集

NGINX开源社区

微服务 网络安全 物联网 经验分享

RPA原理:简单了解RPA发展及相关知识

八爪鱼采集器︱RPA机器人

RPA 自动化 RPAxAI

LSP协议:技术创新背后的团队与愿景

股市老人

亚马逊将自有服务数据的压缩从Gzip切换为Zstd_架构_InfoQ精选文章