基于CPU的AI深度优化，如何打造业内领先的MLPerf推理性能？_开源_关贺宇

11 月 19 - 20 日 Apache Pulsar 社区年度盛会来啦，立即报名！了解详情 



 写点什么

几天前，英特尔正式宣布以 20 亿美元收购成立仅三年的 AI 芯片公司 Habana Labs。这是继收购 Mobileye、Nervana 之后，英特尔在 AI 领域第三次收购 AI 初创公司。与此同时，腾讯也在不断加大 AI 布局。两强联手，看科技巨头如何引领未来变革？

腾讯云与英特尔在 AI 领域早已建立紧密的合作关系。作为国内领先的云服务商，腾讯云 AI 平台部承载着腾讯外部和内部 AI 客户上云的业务，AI 推理云 TI-EMS 是其最重要的产品之一。英特尔软件团队为腾讯云提供的针对深度学习而设计的第二代英特尔至强可扩展处理器和 DL Boost 特性，通过一站式 AI 服务，更好地满足企业上云需求。

不久前，腾讯云在首个 AI 性能评测标准 MLPerf 中创造了记录，这个成绩是腾讯和英特尔基于第二代英特尔至强可扩展平台，利用英特尔深度学习加速技术，共同优化算法而得到的。要知道 MLPerf 是针对 AI 的性能评测标准，它是客户选择云上 AI 服务的重要参考。

MLPerf 的由来

MLPerf 是由谷歌、英特尔、百度、英伟达等数十家业界厂商倡导的一套用于测量和提高机器学习软硬件性能的通用基准，主要用来测量训练和推理不同神经网络所需要的时间。MLPerf 测试集包含了不同领域的基准（Benchmark）子项，主要包括图像分类、物体识别、翻译、推荐、语音识别、情感分析以及强化学习等 AI 业界高频应用场景。

在 MLPerf 推理测试中，每个基准的评价标准是：在特定数据集上测量模型的推理性能，包括延迟和吞吐量。继 AI 训练基准 v0.5、v0.6 之后，MLPerf 在今年 6 月推出 AI 推理基准 v0.5。新的 MLPerf 推理基准测试中包括 5 项内容，主要针对目前常见的应用，包括图像识别、物体检测及机器翻译项目，测试模拟的场景都与真实情况相关。MLPerf 推理测试还在持续开发中，目前已经实现的基准如下表所示：

可以说，MLPerf 推理基准测试让 AI 芯片有了更加全面的测试。有了 MLPerf 基准测试以后，各大公司发布的 AI 性能对比一目了然。

为什么 MLPerf 基准测试被广泛认可？其公正性和价值源于哪里？

作为快速成长的新兴市场，机器学习领域一直以来缺少用来评估平台性能的行业测试基准。虽然 ResNet-50 等网络经常用作训练和推理的性能代理，但其仍是一套主要基于图像任务的单一 CNN，不能提供机器学习平台的完整性能图景。机器学习还包含许多其他用例，例如语音、翻译和推荐系统等。

MLPerf 的关键设计目标之一是工作负载的多样化。因此，它涵盖了对图像和自然语言的使用，以及推荐系统和强化学习等，共 7 项测试。目前以训练测试为主，而本次英特尔软件团队支持腾讯云 AI 推理云 TI-EMS 在 MLPerf 的推理性能评测，是业界首例，其标志性意义不言而喻。

Hyperion Research 公司高级研究副总裁 Steve Conway 曾表示，MLPerf 代表着“积极且实用的”一步，“因为多年以来买卖双方一直缺少必要的基准方案，用以证明不同 AI 产品与解决方案之间的差异。原有基准的存在仅仅是为了解决早期 AI 发展阶段中的有界类实际问题。而随着无界类 AI 问题数量的快速增加，我们显然需要额外的基准工具对其进行评估……”

图灵奖得主 David Patterson 也曾就 MLPerf 的发布评论称：“良好的基准测试能让研究人员迅速比较不同思路，降低创新难度。通过调整研发工作、引导投资决策，MLPerf 对于全球范围内机器学习技术进步和整个 AI 领域的创新意义深远。”

腾讯云 AI 推理云 TI-EMS 是什么？

腾讯智能钛弹性模型服务（Tencent Intelligence Elastic Model Service，TI-EMS）是具备虚拟化异构算力和弹性扩缩容能力的在线推理平台，能够帮助客户解决模型部署复杂、资源浪费、手工扩展资源效率低下的问题。客户通过使用 TI-EMS 可以实现模型一键部署，自动调整弹性计算资源。同时，TI-EMS 具备多模型支持、版本管理和灰度升级等丰富完善的功能，其内置的 CPU/GPU 推理加速镜像为客户提供高性能、高性价比推理服务。

比如在实时翻译场景下，线上业务需要应对可能的实时高请求量，智能钛弹性模型服务可进行针对性地弹性扩容快速响应，高吞吐，低延迟，保障高 QPS 线上业务平稳运行。

腾讯云 TI-EMS 在 MLPerf 评测中创造记录的背后

首先看测试结果：通过提供最新的四路第二代英特尔至强可扩展处理器及其强大的 DL Boost/VNNI 特性，结合 PyTorch 的深入优化，腾讯云在 MobileNet 和 Resnet50 的三个模式下（Single Stream,、Server、Offline）获得了业界领先的 performance/TOPS 性能，在最能体现算力能效的 Offline 模式下，每 T 算力，MobileNet 和 Resnet50 达到了 421.6 Samples/s 和 87.6 Samples/s，分别是 T4 的 3.1 倍和 2.03 倍。而基于通用框架（PyTorch）的 CPU 方案不仅更易部署、更具灵活性，并且可以充分挖掘 CPU 的深度学习计算能力，为客户提供一站式的 AI 服务。

这次是历史上 MLPerf 第一次发布推理性能。该项测试结果，无论对于英特尔的软硬件实力还是腾讯云基于 Pytorch 的高效 AI 推理云服务能力都是极大的认可。

在软件方面，英特尔软件团队和腾讯 AI 推理云一起针对深度学习的高性能计算库在 PyTorch 上做了基于 INT8 的深度优化，大幅加速深度学习的效率，并使用创新型的算法策略提升了量化的精度。企业业务上云已是大势所趋，而 AI 则是目前最火热的业务。因此各大云厂商都在蓄力，全力争取 AI 客户将业务部署在自家的云上。

除了 AI 推理，为了更好地服务云生态用户，腾讯云还推出了一站式机器学习生态服务平台——腾讯智能钛机器学习平台，它能够对各种数据源、组件、算法、模型和评估模块进行组合，用户在其上可以方便快捷地进行模型训练、评估和预测。

由于采用英特尔 OpenVINO 进行优化，使得该平台的推理性能较之前有了大幅提升。值得一提的是，在该平台上为客户增加了基于英特尔至强可扩展处理器的选项，并且基于英特尔 Analytics Zoo 丰富了算法库；同时双方还在推进全栈式端到端的 AutoML（Automated Machine Learning）开发，来帮助客户更易构建和优化 AI 应用。

面对巨大的市场需求，作为技术领导者的英特尔正在引领边缘计算和计算机视觉解决方案的演进方向，并通过专为人工智能设计的全套产品和解决方案，帮助企业不断发掘数据的可能性。

软硬结合，一直都是英特尔的一张王牌

回顾过去三四十年算力的发展，每一个基础性转变背后也伴随着软硬件结合的变迁。在互联网时代，PC 作为主要的硬件载体，其软硬件结合的典型就是 x86 架构和 Windows 系统。从 PC 时代的 10 亿用户进入到移动互联网时代的 100 亿用户，大家在谈论规模将达 1000 亿台设备的下一个时代，很难预测什么样的架构和软件的结合会成为主流。这种变迁对于云端服务软硬件的要求也越来越高，如何能够以更高的性能，更低的成本，更好地为更多的终端设备提供更加流畅的服务，软件正在发挥越来越重要的作用，软硬件结合的深入优化为这些目标提供了可能。

那么软件到底能带来多大程度的性能提升？在今年英特尔开源技术峰会（OSTS）上，英特尔公司高级副总裁兼架构、图形与软件部门总经理 Raja Koduri 举了三个例子。第一个例子是从 JDK8 到 JDK9， Java 生态系统中实现了巨大的性能提升。英特尔的工程师们为客户和开发者将现有硬件的性能提升了 6 倍。

第二个例子是内存方面，原始硬件本身极具局限性，但如果将其与英特尔的内存层级架构相结合，再加上他们在软件栈方面的领先技术，就能将工作负载的性能提升 8 倍。

第三个例子是深度学习方面，利用 DL Boost 等架构扩展，从 Skylake 升级至 Cascade Lake，相比上一代硬件提速 28 倍。

CPU 凭借近年来更新迭代获得的针对性的软、硬件优化，在深度学习上已经能占据一席之地。英特尔方面的数据显示，在与前一代没有优化软件的产品相比，第二代英特尔至强可扩展处理器执行深度学习任务的性能大幅提升，训练吞吐量提升高达 127 倍。

而在深度学习框架之外，英特尔自身也针对人工智能开发了一系列技术与工具，比如基于 Spark 的分布式深度学习框架 BigDL、大数据分析 +AI 平台 Analytics Zoo、OpenVINO 工具包、数学核心函数库（英特尔 MKL）、数据分析加速库（英特尔 DAAL）、面向 Python 的英特尔分发包等。亚马逊 AWS、微软 Azure 等海外公有云巨头推出基于英特尔至强平台的 AI 云服务，很大程度上是看中了其应用灵活性带来的创收灵活性。

英特尔正在从晶体管为中心到数据为中心的转型，并提出了英特尔的六大技术支柱——制程和封装、架构、内存和存储、互连、安全、软件。其中，软件的重要性会大幅提升，唯有软硬兼施，才能更好地满足未来计算的需求。从底层硬件、软件工具到生态建设，英特尔的全栈 AI 生态大幕已然拉开。

发布

暂无评论

创作场景

基于 CPU 的 AI 深度优化，如何打造业内领先的 MLPerf 推理性能？

MLPerf 的由来

为什么 MLPerf 基准测试被广泛认可？其公正性和价值源于哪里？

腾讯云 AI 推理云 TI-EMS 是什么？

腾讯云 TI-EMS 在 MLPerf 评测中创造记录的背后

软硬结合，一直都是英特尔的一张王牌

评论

Hystrix-服务容错处理：什么是Hystrix，鲁班学院二期

前端之数据结构（二）

Java并发--synchronized原子性的底层机制剖析

数据缓存历险记（三）--老头的LRU很带劲

IDEA的中文注释引起的程序报错！，那些被大厂优化的程序员们

保持信心

Vue深入学习3—数据响应式原理

GitHub-标星过万！腾讯技术官发布的，腾讯Java社招面试经验

HashMap源码解析，Java黑马程序员资源

16条代码规范建议，快看看自己做到没，Java从基础到高级知识点汇总

C#位运算，面试要掌握这几个关键点

2021最新版SpringCloud高频面试题分享，【性能优化实战

常见的静态负载均衡算法

C#索引器的实现，黑马程序员Java基础入门

Dubbo如何支持本地调用？InJvm方式解析，阿里官方推荐

iOS开发：Block传值的运用

异或位算法的高效玩法

Vue深入学习2—虚拟DOM和Diff算法

404，【大牛系列教学

ArrayList（Java8，阿里大牛把「服务雪崩」玩到了极致

Dagger2源码分析（二，深入理解Java虚拟集百度云

深入学习 CSS 中的伪元素 ::before 和 ::after

15道常考SpringBoot面试题整理，字节跳动Java金三银四解析

【设计模式】适配器模式

20位大厂面试官推荐的《Java面试八股文，高级架构师百度云资源

apk瘦身；如何缩小体积呢，Java面试笔试题及答案

ELK性能优化实战总结：我强任我强，美的Java面试题

Git-如何优雅地回退代码，字节跳动内部学习资料泄露

Apache APISIX 2.8 正式发布，带来更多新功能！

JVM实践--实例解析字节码常量池

2020年五面蚂蚁，中级Java开发人员要掌握的技术

创作场景

基于 CPU 的 AI 深度优化，如何打造业内领先的 MLPerf 推理性能？

MLPerf 的由来

为什么 MLPerf 基准测试被广泛认可？其公正性和价值源于哪里？

腾讯云 AI 推理云 TI-EMS 是什么？

腾讯云 TI-EMS 在 MLPerf 评测中创造记录的背后

软硬结合，一直都是英特尔的一张王牌

评论

更多内容推荐

推荐阅读

电子书

大厂实战PPT下载