Meta 最近发布了 DCPerf,它可以模拟数据中心云部署中的各种工作负载。对于研究人员、硬件开发人员和互联网公司来说,该基准测试集有望成为一项非常有用的资源,帮助他们设计和评估未来的产品。
在一篇博文中,来自 Meta 的 Abhishek Dhanotia、Wei Su、Carlos Torres、Shobhit Kanaujia 和 Maxim Naumov 着重说明了超大规模云数据中心工作负载的独特性。他们强调,这些主导服务器市场的工作负载与高性能计算(HPC)或传统企业场景中的工作负载有着很大的不同。因为存在这种差异,所以需要专门的服务器设计和评估方法,也就是说,需要专用的基准测试。
DCPerf 是一个基准测试套件,设计用来模拟现实世界的超大规模云应用程序,旨在为硬件供应商、系统软件开发商和研究人员提供评估新产品、开展性能预测和建模的工具。这种方法可以反映互联网应用程序公司开发并部署在超大规模云数据中心中的实际生产负载。
从检查底层硬件微体系结构特性到分析应用程序和库的使用概况,Meta 团队采用了多种技术来确保其基准测试的代表性。这种方法使他们能够捕获生产负载的关键特征,并将其纳入到 DCPerf 中。
有了这些基准测试,基于未来服务器平台的软硬件设计及优化工作将更直接地转化改进超大规模生产部署的效率。
图片来源:DCPerf:一个面向大规模计算应用的开源基准测试套件
Meta 确保了该套件与各种指令集体系结构(x86、ARM)的兼容性,验证了它在新兴技术(如芯片粒子(chiplet))中的有效性,并添加了多租户支持,以便可以利用现代服务器上不断增加的内核数。
当 Hacker News 分享这一消息 时,技术社区注意到,它与专为谷歌工作负载定制的基准测试套件 Fleetbench 相似。Fleetbench 的 C++ 代码旨在帮助芯片供应商、编译器研究人员和其他希望提高类谷歌工作负载性能的人。
Meta 内部一直在使用 DCPerf 和 SPEC CPU 基准测试套件,以增强他们在产品评估和数据中心配置选择方面的能力。这种方法可以针对容量规划做早期性能预测,有助于确定硬件和软件中的性能问题,并促进与硬件合作伙伴协作开展平台优化。
与 SPEC CPU 等传统基准测试相比,DCPerf 的应用程序软件集提供了对平台性能更全面的洞察。在认识到这些好处之后,Meta 将 DCPerf 集成到了其数据中心部署过程中的平台选择流程中。
在评估和优化 CPU 性能、IPC、内存延迟以及在一定程度上评估和优化内存带宽和功耗方面,DCPerf 具有很强的适用性。但是,它在网络和存储评估方面的用处不大,并且受限于特定的工作负载。这篇博文着重介绍了 DCPerf 可能需要进一步开发的特定方面,或者用户在解释结果时应该谨慎对待的地方。
对于 DCPerf,Meta 感谢其合作者的支持和贡献。感兴趣的读者可以在 GitHub 上了解项目的更多细节。
原文链接:
https://www.infoq.com/news/2024/08/meta-dcperf-benchmark-suite/
评论