QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

Allegro 如何将运行 GCP 数据流管道的成本降低 60%

作者:Rafal Gancarz

  • 2024-12-09
    北京
  • 本文字数:981 字

    阅读完需:约 3 分钟

Allegro 如何将运行 GCP 数据流管道的成本降低 60%

Allegro 设法显著节约了 GCP Big Data 上运行的一条数据流管道的成本。该公司继续致力于通过评估资源利用率、增强管道配置、优化输入和输出数据集以及改进存储策略来提高其数据工作流的成本效益。


Allegro 在 Google Cloud Dataflow 处理引擎上运行许多数据管道,并找出了许多优化这些管道以节省成本的方法。Allegro 高级软件工程师 Jakub Demianowski 分享了一个案例研究,详细介绍了优化单个管道以将成本降低约 60% 所采取的步骤。


CPU 利用率统计(来源:Allegro 技术博客)


成本优化工作集中在三个关键领域,并涉及一些对导致运行管道总成本的潜在低效率的假设的测试。要探索的第一个假设是计算资源可能利用不足。对 CPU 利用率指标的分析显示,平均 CPU 利用率为 85%,使用率降低的原因是数据混洗,这表明 CPU 并未被充分利用。


内存利用率统计(来源:Allegro 技术博客)


通过查看内存利用率指标,Demianowski 得出结论,只有 50% 的可用内存被使用。他选择更改计算实例类型以调整 CPU 与内存的比率,从而节省了 10% 的成本。


作者考虑的第二个假设是,原有虚拟机类型的性价比不是最优的。根据 Google Cloud 提供的 CoreMark 分数,t2d-standard-8 VM 类型提供了最佳的成本效益。他使用 3% 的原始数据集运行数据管道并实现了 32% 的成本降低,进一步证实了这一点。第三个假设侧重于 VM 存储类型。Demianowski 对比了使用 HDD 或 SSD 磁盘的不同 VM 系列,结果表明使用 SSD 更便宜。


最后一个假设涉及作业配置中可能的成本效率低下因素。一个特别令人担忧的领域是 Dataflow Shuffle 服务的成本过高。作者评估了使用和不使用 Shuffle 服务运行该作业的情况,并得出结论,关闭 Shuffle 服务可大大降低成本,此外还可使 worker 节点充分利用可用内存。


在实施博客文章中描述的步骤后,Demianowski 估计运行该管道的年成本从 12.7 万美元降低至约 4.8 万美元。他总结了提高运行管道成本效益的各项努力:


我们甚至无需接触处理代码就取得了出色的成果。推测方法提供了良好的结果。可能仍有一些优化空间,但在给我的时间约束内,我认为这些结果是一流的,并且没有发现任何进一步优化 Dataflow 作业的环境和配置的理由。


作者强调,每个数据管道都是不同的,工程师需要有条不紊地查看和运用不同的途径来降低运营成本并实证评估相关成本。


查看原文链接:

https://www.infoq.com/news/2024/11/allegro-dataflow-cost-savings/

2024-12-09 08:049620

评论

发布
暂无评论
发现更多内容

MarsCode 编程助手模型升级至豆包大模型1.5,同时支持切换DeepSeek R1 / V3!

豆包MarsCode

AI编程 豆包MarsCode DeepSeek DeepSeek v3 DeepSeek-R1

【干货】2024年下半年最受欢迎的50篇数据库主题文章+文档

墨天轮

MySQL 数据库 oracle sql 性能优化

项目调度管理系统(源码+文档+部署+讲解)

深圳亥时科技

Golang赋能金融科技后端架构的高效与安全构建

xuyinyin

搜款网VVIC商品详情数据接口(搜款网API系列)

tbapi

搜款网API 搜款网商品详情接口 搜款网商品数据采集

什么是智能制造?智能制造深度分析!

积木链小链

数字化转型 数字化 智能制造

CST案例分析——77GHz汽车雷达保险杠

思茂信息

cst cst操作 CST软件

即时通讯安全篇(十五):详解硬编码密码的泄漏风险及其扫描原理和工具

JackJiang

网络编程 即时通讯 IM

鸿蒙APP的测试

北京木奇移动技术有限公司

鸿蒙app 软件外包公司 APP外包公司

Svelte 最新中文文档教程(14)—— 特殊元素

冴羽

vue.js 前端 React Svelte SvelteKit

全国独家线下面授 | 杭州·大规模敏捷LeSS认证3月27-29日开班

ShineScrum

Scrum LeSS认证

当“天翼云息壤杯”高校AI大赛邂逅DeepSeek,福利来袭!

天翼云开发者社区

人工智能 AI 科研 DeepSeek

程序员如何高效学习一些新技术

秃头小帅oi

制造业上了MES后,生产过程透明化,实时掌握生产动态

万界星空科技

制造业 mes 制造业工厂 生产管理MES系统

和鲸协办!2025 4C大赛AI通识教育实验创新微课赛道 Q&A × 培训预告重磅来袭!

ModelWhale

京东、蚂蚁集团领衔,国内互联网大厂入局人形机器人赛道!

机器人头条

科技 蚂蚁集团 人形机器人 具身智能 京东集团

DeepSeek冲击(含本地化部署实践)

京东零售技术

和鲸协办!2025 4C大赛大数据主题赛赛事 Q&A × 培训预告重磅来袭!

ModelWhale

大数据 数据应用 数据要素 中国大学生计算机设计大赛

千校关注!和鲸科技重磅发布人工智能通识课,助力高校一周内实现课程落地开花

ModelWhale

AI 人工智能通识课 DeepSeek 人工智能通识

线上机器CPU占用高分析实践

京东零售技术

我的电子产品家族成员-懒猫微服

玄兴梦影

家庭数据中心 NAS 懒猫微服 使用体验 微型服务器

喜讯|麦杰科技CEO荣膺“闵行区优秀企业家”称号

麦杰研究院

开源低代码平台与 Vue.js

伤感汤姆布利柏

Allegro 如何将运行 GCP 数据流管道的成本降低 60%_架构_InfoQ精选文章