速来报名!AICon北京站鸿蒙专场~ 了解详情
写点什么

Allegro 如何将运行 GCP 数据流管道的成本降低 60%

作者:Rafal Gancarz

  • 2024-12-09
    北京
  • 本文字数:981 字

    阅读完需:约 3 分钟

Allegro 如何将运行 GCP 数据流管道的成本降低 60%

Allegro 设法显著节约了 GCP Big Data 上运行的一条数据流管道的成本。该公司继续致力于通过评估资源利用率、增强管道配置、优化输入和输出数据集以及改进存储策略来提高其数据工作流的成本效益。


Allegro 在 Google Cloud Dataflow 处理引擎上运行许多数据管道,并找出了许多优化这些管道以节省成本的方法。Allegro 高级软件工程师 Jakub Demianowski 分享了一个案例研究,详细介绍了优化单个管道以将成本降低约 60% 所采取的步骤。


CPU 利用率统计(来源:Allegro 技术博客)


成本优化工作集中在三个关键领域,并涉及一些对导致运行管道总成本的潜在低效率的假设的测试。要探索的第一个假设是计算资源可能利用不足。对 CPU 利用率指标的分析显示,平均 CPU 利用率为 85%,使用率降低的原因是数据混洗,这表明 CPU 并未被充分利用。


内存利用率统计(来源:Allegro 技术博客)


通过查看内存利用率指标,Demianowski 得出结论,只有 50% 的可用内存被使用。他选择更改计算实例类型以调整 CPU 与内存的比率,从而节省了 10% 的成本。


作者考虑的第二个假设是,原有虚拟机类型的性价比不是最优的。根据 Google Cloud 提供的 CoreMark 分数,t2d-standard-8 VM 类型提供了最佳的成本效益。他使用 3% 的原始数据集运行数据管道并实现了 32% 的成本降低,进一步证实了这一点。第三个假设侧重于 VM 存储类型。Demianowski 对比了使用 HDD 或 SSD 磁盘的不同 VM 系列,结果表明使用 SSD 更便宜。


最后一个假设涉及作业配置中可能的成本效率低下因素。一个特别令人担忧的领域是 Dataflow Shuffle 服务的成本过高。作者评估了使用和不使用 Shuffle 服务运行该作业的情况,并得出结论,关闭 Shuffle 服务可大大降低成本,此外还可使 worker 节点充分利用可用内存。


在实施博客文章中描述的步骤后,Demianowski 估计运行该管道的年成本从 12.7 万美元降低至约 4.8 万美元。他总结了提高运行管道成本效益的各项努力:


我们甚至无需接触处理代码就取得了出色的成果。推测方法提供了良好的结果。可能仍有一些优化空间,但在给我的时间约束内,我认为这些结果是一流的,并且没有发现任何进一步优化 Dataflow 作业的环境和配置的理由。


作者强调,每个数据管道都是不同的,工程师需要有条不紊地查看和运用不同的途径来降低运营成本并实证评估相关成本。


查看原文链接:

https://www.infoq.com/news/2024/11/allegro-dataflow-cost-savings/

2024-12-09 08:044220

评论

发布
暂无评论
发现更多内容

跟着卷卷龙一起学Camera--夜景拍照01

卷卷龙

ISP camera 10月月更

2022-10-11:一个整数区间 [a, b] ( a < b ) 代表着从 a 到 b 的所有连续整数,包括 a 和 b。 给你一组整数区间intervals,请找到一个最小的集合 S, 使得

福大大架构师每日一题

算法 rust 福大大

Redis 的快速介绍及其基本数据类型和操作

宇宙之一粟

redis 10月月更

cstdio的源码学习分析09-改变文件流文件流buffer函数setvbuf

桑榆

源码刨析 10月月更 C++

跟着卷卷龙一起学Camera--RGBNIR sensor 02

卷卷龙

ISP camera 10月月更

云服务架构设计基础模式

穿过生命散发芬芳

10月月更 云服务架构

sql注入--handler语句--一文详细解说其原理和方法

贤鱼很忙

Web SQL注入 10月月更

网络异常之后为什么MOA地址列表错乱了?

BUG侦探

TCP Jedis 乱序

Web3雇佣兵的现状,Zebec根本上提高用户黏性

鳄鱼视界

MySQL高级--性能优化之索引

Java学术趴

10月月更

跟着卷卷龙一起学Camera--RGBNIR sensor 01

卷卷龙

ISP camera 10月月更

Java文档注释 Intellij IDEA Generate JavaDoc

Yeats_Liao

后端 doc Java core 10月月更

《数字经济全景白皮书》中国银行业场景金融生态建设分析2022 发布

易观分析

金融 客户 场景生态建设

【一Go到底】第十一天---流程控制

指剑

Go golang 10月月更

Dapr简介-分布式应用运行时

久歌

架构 servicemesh 技术架构 dapr

Vue组件入门(二)props和emit

Augus

Vue3 10月月更

基础算法:二分查找 搜索插入位置

梦笔生花

Python 二分查找 10月月更

Flash软件应用项目(一)

张立梵

设计师 Flash 10月月更

Spring之IOC自动装配

楠羽

笔记 SP【ring 10月月更

爬虫实例——爬取豆瓣网 top250 电影的信息

梦笔生花

Python爬虫 10月月更 爬虫案例

【Java深入学习】Park&Unpark的深入学习讲解

Geek_65222d

10月月更

MySQL高级--性能优化之Explain分析SQL

Java学术趴

10月月更

MySQL高级--性能优化之索引使用

Java学术趴

10月月更

【网络安全】如何在Apache 安装开源 WAF

网络安全学海

黑客 网络安全 信息安全 渗透测试

数据中台4点核心建设内容

阿泽🧸

数据中台 10月月更

Web3雇佣兵的现状,Zebec根本上提高用户黏性

股市老人

【网络安全篇】php伪协议-漏洞及其原理

贤鱼很忙

php 网络安全 Web 10月月更

使用 Scrapy 框架来爬取数据

梦笔生花

spider scrapy框架 10月月更

sql注入--通过修改数据完成注入--一文详细讲解

贤鱼很忙

Web SQL注入 10月月更

【答读者问】把Go基础学完后,是学web方向还是区块链方向?

王中阳Go

php Go 区块链 职业规划 10月月更

Allegro 如何将运行 GCP 数据流管道的成本降低 60%_架构_InfoQ精选文章