写点什么

英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略

  • 2023-12-12
    北京
  • 本文字数:1243 字

    阅读完需:约 4 分钟

大小:660.17K时长:03:45
英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略

QCon 全球软件开发大会,将于 12 月在上海召开。英特尔数据中心与人工智能事业部 AI 软件架构师何普江将发表题为《大模型时代:最大化 CPU 价值的优化策略》主题分享,探讨一种结合 CPU 和 GPU 的投机采样方法,在大语言模型时代充分利用 CPU 资源的关键策略,以及最新的性能情况,以便了解这些优化策略的实际效果。


何普江,2007 年硕士毕业于中国科学技术大学。精通英特尔软件架构、英特尔产品与技术以及 IA 平台性能优化。在英特尔工作期间,为国内主流 ISV 开发出基于 IA 平台的云计算产品过程中提供关键支持,并优化了多家主要互联网公司的核心产品,使其性能提升数倍。对 PyTorch,Tensorflow 等 AI 框架有深入研究,并拥有 10 年以上软件优化经验。工作期间曾获得英特尔中国个人员工最高荣誉奖,与国内互联网厂商多个部门进行深度合作,并在 2019 年助力某云厂商云在 MLPerf 评测中创下了业界领先的 Performance/TOPS 性能记录。他致力于基于 IA 架构平台的深度学习、机器学习研究和在互联网行业的落地推广工作,最新工作包括创建并开源了 CPU 上大语言模型的极致优化方案 xFasterTransformer。他在本次会议的演讲内容如下:


演讲:大模型时代:最大化 CPU 价值的优化策略


本次演讲将探讨在大语言模型时代充分利用 CPU 资源的关键策略。具体介绍一些结合硬件特性的优化方法,例如利用 CPU 的多核特性、采用并行计算和 AMX 指令集扩展技术来提高处理速度。


此外还将介绍一种结合 CPU 和 GPU 的投机采样方法,通过在 CPU 上运行部分计算任务,充分利用 CPU 资源并减少对 GPU 的依赖。最后,我将分享一些最新的性能情况,让您了解这些优化策略的实际效果。通过这些方法,您将能够更好地利用 CPU 资源,提高模型推理速度,以更快速高效的实现生成式模型部署落地。


演讲提纲:


  1. 大语言模型时代为什么需要最大化 CPU 价值

  2. CPU 上的大模型优化策略

○ 大语言模型计算特点

○ CPU 硬件特性概览

○ 优化方法

○ 从向量化到张量化

○ 从并行执行到分布式推理

○ 低精度优化

○ 深入 CPU 微架构的软件优化

○ 各优化策略的实际性能数据对比及效果展示

  1. 结合 CPU 和 GPU 的投机采样方法

○ CPU 和 GPU 协同工作的背景

○ 投机采样技术的介绍

○ 利用 CPU 进行部分计算任务的优势

○ 优化方法:选择合适的投机采样策略、任务调度等

  1. 总结与展望

○ 各优化方法的核心优势与局限性总结

○ 对未来大语言模型时代的展望与挑战


听众收益点:


○ 理解并结合硬件特性进行优化,提高模型推理速度和处理能力

○ 了解 CPU 上的最新性能情况,为实际业务的大模型线上部署提供更多选择

○ 掌握结合 CPU 和 GPU 协同工作的优化策略,减少对 GPU 的依赖,提高资源利用率


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月!9 折优惠仅剩最后 4 天,现在购票立减¥680!咨询购票请联系:18514549229(微信同手机号)。



2023-12-12 11:304002
用户头像

发布了 89 篇内容, 共 45.8 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

【微电平台】-高并发实战经验-奇葩问题解决之旅

京东科技开发者

架构 服务端 js 平台

索信达再度打造智能营销标杆案例,这次是头部券商!

索信达控股

板边器件距离不够,导致元器件无法焊接,怎么办?

华秋电子

官宣:OpenDAL 成功进入 Apache 孵化器

Databend

华秋工艺分享:第八道主流程之丝印文字流程

华秋电子

Spring Boot中如何优雅地实现异步调用?

JAVA旭阳

Java springboot

100Wqps短链系统,怎么设计?

小小怪下士

Java 程序员 后端 QPS

windows 系统下 workerman 在同一个运行窗口中开启多个 websocket 服务

极客飞兔

windows 经验分享 websocket workerman 多服务

cortex ingester 基于 hash ring 进行 token 管理

jupiter

Prometheus 一致性hash Cortex Mimir

基于 RocketMQ Connect 构建数据流转处理平台

Apache RocketMQ

详解ResNet 网络,如何让网络变得更“深”了

华为云开发者联盟

人工智能 神经网络 华为云 华为云开发者联盟 企业号 3 月 PK 榜

百度“文心一言”申请服务测试企业达7.6万,股价拉升涨幅近15%

Geek_2d6073

测试的底层逻辑

京东科技开发者

Java 测试 代码 企业号 3 月 PK 榜

中国半导体市场份额进一步提升,2023年将迎全新发展良机

华秋电子

网易携手昇腾AI打造玉知-悟空图文理解大模型,做更“懂你”的产品

Geek_2d6073

前端进阶:在 Web 中使用 C++,我让学妹另眼相看 | 技术分享

LigaAI

c++ 程序人生 前端 webassembly 企业号 3 月 PK 榜

硬核!阿里大佬都在内卷的SpringBoot从入门到实战笔记

程序知音

Java 编程语言 springboot Java进阶 后端技术

优秀软件工程师必备的五大技能,快看你还差什么?

SoFlu-JavaAI开发助手

阿里P8裸辞真实心路历程,他底气来源于Java高阶面试合集

Java你猿哥

Java Spring Boot ssm 面经 八股文

数据湖选型指南|Hudi vs Iceberg 数据更新能力深度对比

袋鼠云数栈

数据湖

【干货】常见库存设计方案-各种方案对比总有一个适合你

Java你猿哥

Java 架构 微服务 系统设计 后端

MybatisX整合Spring Boot,真香!

Java你猿哥

Java Spring Boot 后端 mybatis ssm

瞄准2023教育春招,百度营销多措并举,推出创新型行业营销解决方案

Geek_2d6073

“奇遇未来”专访:一个小众、专业的产品经理实训品牌

Geek_2d6073

HummerRisk 使用教程:主机检测

HummerCloud

使用 Athena (Presto) 分析本地 Oracle 数据库导出的数据

亚马逊云科技 (Amazon Web Services)

openGemini正式加入openEuler SIG-DB ,携手开展全方面技术创新

openEuler

数据库 Linux 开源 操作系统 openEuler

阿里是如何使用分布式架构的?阿里内部学习手册分享

Java你猿哥

Java 分布式 微服务 分布式架构

"鸿蒙生态专家面对面"三月专场等你前来!

HarmonyOS开发者

视频下载软件:MediaHuman YouTube Downloader 中文版

真大的脸盆

Mac 视频下载 Mac 软件 下载视频 视频下载工具

英特尔数据中心与人工智能事业部 AI 软件架构师何普江确认出席 QCon 上海,分享大模型时代:最大化 CPU 价值的优化策略_生成式 AI_徐晓博_InfoQ精选文章