AICon上海|与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用 了解详情
写点什么

Allegro 如何将运行 GCP 数据流管道的成本降低 60%

作者:Rafal Gancarz

  • 2024-12-09
    北京
  • 本文字数:981 字

    阅读完需:约 3 分钟

Allegro 如何将运行 GCP 数据流管道的成本降低 60%

Allegro 设法显著节约了 GCP Big Data 上运行的一条数据流管道的成本。该公司继续致力于通过评估资源利用率、增强管道配置、优化输入和输出数据集以及改进存储策略来提高其数据工作流的成本效益。


Allegro 在 Google Cloud Dataflow 处理引擎上运行许多数据管道,并找出了许多优化这些管道以节省成本的方法。Allegro 高级软件工程师 Jakub Demianowski 分享了一个案例研究,详细介绍了优化单个管道以将成本降低约 60% 所采取的步骤。


CPU 利用率统计(来源:Allegro 技术博客)


成本优化工作集中在三个关键领域,并涉及一些对导致运行管道总成本的潜在低效率的假设的测试。要探索的第一个假设是计算资源可能利用不足。对 CPU 利用率指标的分析显示,平均 CPU 利用率为 85%,使用率降低的原因是数据混洗,这表明 CPU 并未被充分利用。


内存利用率统计(来源:Allegro 技术博客)


通过查看内存利用率指标,Demianowski 得出结论,只有 50% 的可用内存被使用。他选择更改计算实例类型以调整 CPU 与内存的比率,从而节省了 10% 的成本。


作者考虑的第二个假设是,原有虚拟机类型的性价比不是最优的。根据 Google Cloud 提供的 CoreMark 分数,t2d-standard-8 VM 类型提供了最佳的成本效益。他使用 3% 的原始数据集运行数据管道并实现了 32% 的成本降低,进一步证实了这一点。第三个假设侧重于 VM 存储类型。Demianowski 对比了使用 HDD 或 SSD 磁盘的不同 VM 系列,结果表明使用 SSD 更便宜。


最后一个假设涉及作业配置中可能的成本效率低下因素。一个特别令人担忧的领域是 Dataflow Shuffle 服务的成本过高。作者评估了使用和不使用 Shuffle 服务运行该作业的情况,并得出结论,关闭 Shuffle 服务可大大降低成本,此外还可使 worker 节点充分利用可用内存。


在实施博客文章中描述的步骤后,Demianowski 估计运行该管道的年成本从 12.7 万美元降低至约 4.8 万美元。他总结了提高运行管道成本效益的各项努力:


我们甚至无需接触处理代码就取得了出色的成果。推测方法提供了良好的结果。可能仍有一些优化空间,但在给我的时间约束内,我认为这些结果是一流的,并且没有发现任何进一步优化 Dataflow 作业的环境和配置的理由。


作者强调,每个数据管道都是不同的,工程师需要有条不紊地查看和运用不同的途径来降低运营成本并实证评估相关成本。


查看原文链接:

https://www.infoq.com/news/2024/11/allegro-dataflow-cost-savings/

2024-12-09 08:049750

评论

发布
暂无评论
发现更多内容

昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局

新消费日报

KubeEdge 1.20.0发布! 6大新特性提升边缘管理能力

华为云开发者联盟

容器 云原生 k8s 边缘计算 kubeedge

淘宝天猫数据API接口秘籍:快速获取商品详情与关键词搜索商品

代码忍者

淘宝API接口

Go 语言互斥锁

FunTester

延长LED显示屏使用寿命指南

Dylan

商业 广告 LED LED display LED显示屏

人工智能丨DeepSeek风靡一时:一篇文章带你全面了解这款AI工具的强大之处

测试人

DeepSeek

AI 智能体的开发技术

北京木奇移动技术有限公司

AI开发 AI智能体 软件外包公司

告别传统仿真!深度求索大模型正在重新定义工业设计未来

思茂信息

AI 仿真 DeepSeek

AI 智能体(AI Agent)的开发

北京木奇移动技术有限公司

AI开发 AI智能体 软件外包公司

一文带你了解清楚供应链管理!

积木链小链

数字化转型 数字化 制造业 供应链管理

行云管家加入信创生态联盟“金兰组织”, 携手共建信创产业新生态

行云管家

信创 信创国产化

百度网盘防雪崩架构实践

百度Geek说

百度 后端 架构-

YashanDB金融特性数据库根原创实验室成立

极客天地

上海交大师生畅用满血DeepSeek!昇腾加速中国自主创新大模型

极客天地

国内加大政策推动,多层级标准建立产业规范

芯盾时代

数据安全 零信任 信息安全建设

当AI邂逅日志海:从骨感现实到无限可能

权说安全

AI 网络安全

AI 智能体(AI Agent)的开发框架

北京木奇移动技术有限公司

AI开发 AI智能体 软件外包公司

AI智能体应用的开发环境

北京木奇移动技术有限公司

AI开发 AI智能体 软件外包公司

发挥数据在财务规划转型过程中的关键作用

智达方通

企业管理 全面预算管理 财务预测

【FAQ】HarmonyOS SDK 闭源开放能力 —Scan Kit(2)

HarmonyOS SDK

harmoyos

新闻速递丨2025 年度 Altair Enlighten Award 作品征集正式启动

Altair RapidMiner

altair 轻量化大赛 轻量化设计 轻量化技术 Enlighten Award

Elasticsearch AI Assistant 集成 DeepSeek,1分钟搭建智能运维助手

阿里云大数据AI技术

elasticsearch 可视化 nlp AI搜索 DeepSeek

Allegro 如何将运行 GCP 数据流管道的成本降低 60%_架构_InfoQ精选文章