大模型时代：最大化CPU价值的优化策略 | QCon_AI&大模型_InfoQ

大模型时代：最大化CPU价值的优化策略 | QCon

何普江 (英特尔数据中心与人工智能事业部AI软件架构师)

2007年硕士毕业于中国科学技术大学。精通英特尔软件架构、英特尔产品与技术以及IA平台性能优化。在英特尔工作期间，为国内主流ISV开发出基于IA平台的云计算产品过程中提供关键支持，并优化了多家主要互联网公司的核心产品，使其性能提升数倍。对PyTorch，Tensorflow等AI框架有深入研究，并拥有10年以上软件优化经验。工作期间曾获得英特尔中国个人员工最高荣誉奖，与国内互联网厂商多个部门进行深度合作，并在2019年助力某云厂商云在 MLPerf 评测中创下了业界领先的 Performance/TOPS 性能记录。他致力于基于IA架构平台的深度学习、机器学习研究和在互联网行业的落地推广工作，最新工作包括创建并开源了CPU上大语言模型的极致优化方案 xFasterTransformer。

内容介绍

本次演讲将探讨在大语言模型时代充分利用 CPU 资源的关键策略。具体介绍一些结合硬件特性的优化方法，例如利用 CPU 的多核特性、采用并行计算和 AMX 指令集扩展技术来提高处理速度。

此外还将介绍一种结合 CPU 和 GPU 的投机采样方法，通过在 CPU 上运行部分计算任务，充分利用 CPU 资源并减少对 GPU 的依赖。最后，我将分享一些最新的性能情况，让您了解这些优化策略的实际效果。通过这些方法，您将能够更好地利用 CPU 资源，提高模型推理速度，以更快速高效的实现生成式模型部署落地。

最新会议动态：QCon 全球软件开发大会暨智能软件开发生态展将于 4 月 11-13 日在北京·国测国际会议会展中心举办，点击链接了解大模型如何革新软件开发全流程。

听众收益点：

理解并结合硬件特性进行优化，提高模型推理速度和处理能力
了解 CPU 上的最新性能情况，为实际业务的大模型线上部署提供更多选择
掌握结合 CPU 和 GPU 协同工作的优化策略，减少对 GPU 的依赖，提高资源利用率

创作场景