写点什么

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

  • 2023-11-23
    北京
  • 本文字数:1060 字

    阅读完需:约 3 分钟

大小:543.74K时长:03:05
阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

QCon 全球软件开发大会,将于 12 月在上海召开。美国五百强公司高级数据科学家王元将发表题为《LLM 训练推理加速在阿里巴巴的实践》主题分享,探讨基于 TensorRT LLM, Maga Transformer 框架和 LLM 推理平台产品,该系统支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,可以进一步提高推理效率并降低存储和计算需求。


杨斯然,目前是爱橙科技智能引擎事业部大模型训练团队负责人。自 2017 年开始在阿里从事深度学习训练系统的开发,工作包括图学习系统 Euler、稀疏模型训练系统 XDL、高性能稀疏模型训练、大语言模型训练系统等。他在本次会议的演讲内容如下:


演讲:LLM 训练推理加速在阿里巴巴的实践


在大规模语言模型 (LLM) 的训练和推理实践中,工程和算法需求间存在许多需要细心权衡的问题。这些问题涉及到从软硬件协同优化,到分布式处理,以及至算法工程 Co-design 等多个领域。为了解决这些挑战,我们深入研究了不同的应用场景和流量特性,并因此对我们的系统进行了全面优化。


尽管从 HuggingFace 上可以拿到 LLaMA 等模型的代码,但用自己的数据训练一个 LLaMA 模型对个人用户或中小型组织并不是一件低成本且简单的工作。Megatron-LLaMA 框架基于有着成熟社区的 Megatron-LM 项目,充分降低了 LLaMA 等开源模型的训练成本和门槛。


Megatron-LLaMA 中包含了:


  1. 基于社区 HuggingFace LLaMA 模型的续训能力;

  2. 在不同规模、硬件上大模型训练的最佳实现;

  3. 针对训练成本的性能优化。


在推理方面,基于 TensorRT LLM,我们进一步研发了 Maga Transformer 框架和 LLM 推理平台产品。这个系统通过应用一套统一的框架和多种不同的策略,成功地优化了不同推理场景下的成本和用户体验。我们全面支持各种开源和内部 LLM 模型,以 LLaMA 7B 和 Falcon 180B 为例,我们的系统达到了 xxx 的性能水平,这一结果充分证明了我们的系统在处理大规模数据时的卓越性能。


此外,我们的系统还广泛支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,这可以进一步提高推理效率并降低存储和计算需求。这一系列的特性使得我们的系统在处理大规模语言模型推理时表现出强大的竞争力。


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月! 现在购票,享 8 折优惠,立减¥1360!咨询购票请联系:18514549229(微信同手机号)。



2023-11-23 11:307142
用户头像

发布了 89 篇内容, 共 45.8 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

建木持续集成平台v2.5.2发布

Jianmu

持续集成 低代码 CI/CD gitops

4 轮拿下字节 Offer,面试题复盘

程序员啊叶

Java 编程 程序员 架构 java面试

深度 | 自动驾驶数据服务进入2.0时代

澳鹏Appen

人工智能 自动驾驶 计算机视觉 智能驾驶 激光雷达

搞定RocketMQ这二十三点,大厂面试稳了

王小凡

Java 数据库 程序员 面试 大厂面试

技术实践干货 | 初探大规模 GBDT 训练

观远数据

人工智能 机器学习

AIRIOT答疑第6期|如何使用二次开发引擎?

AIRIOT

二次开发 物联网低代码平台

一种比读写锁更快的锁,还不赶紧认识一下

华为云开发者联盟

高并发 开发 ReadWriteLock StampedLock

兆骑科创海内外引进高层次人才,创新创业项目对接

兆骑科创凤阁

【微信小程序】项目实战—抽签应用

flow

签约计划第三季

图的遍历的定义以及深度优先搜索和广度优先搜索(二)

乔乔

7月月更

低代码实现探索(四十五)业务参数

零道云-混合式低代码平台

面试官:4年经验没碰过Nginx? Nginx入门,图文超详细

LoneWalker、

nginx

Spring Cloud 架构

Damon

7月月更

带来高价值用户体验的低代码开发平台

力软低代码开发平台

如何查看蓝牙耳机的蓝牙版本

贾献华

7月月更

知识管理系统推动企业信息化发展

Baklib

怎样实现文档协同?

Baklib

美团二面:为什么Redis会有哨兵?

王小凡

Java redis 编程 程序员 开发

GIS数据漫谈(五)— 地理坐标系统

ThingJS数字孪生引擎

技术分享| 快对讲综合调度系统

anyRTC开发者

音视频 指挥调度 快对讲 语音对讲 视频对讲

1000个字带你一次性搞懂JavaAgent技术,反正我是彻底服了

程序员啊叶

Java 编程 程序员 架构 java面试

浅谈AI深度学习的模型训练和推理

GVision

2022备战秋招10W字面试小抄pdf版,附操作系统、计算机网络面试题

程序员啊叶

Java 编程 程序员 架构 java面试

如何让个性化推荐即刻触达?云原生数据库GaussDB(for Redis)来助力

华为云开发者联盟

数据库 云原生 后端

一文读懂Plato Farm的ePLATO,以及其高溢价缘由

西柚子

施耐德电气、欧莱雅等企业巨头如何开放式创新?DEMO WORLD世界创新峰会揭秘

创业邦

Redis网红高频面试题三连:缓存穿透?缓存击穿?缓存雪崩?

程序员啊叶

Java 编程 程序员 架构 java面试

字节跳动Java研发面试99题(含答案):JVM+Spring+MySQL+线程池+锁

程序知音

Java 字节 程序员面试 后端技术 八股文

2022年金三银四Java面试宝典,横扫春招+社招+秋招

程序员啊叶

Java 编程 程序员 架构 java面试

怎么会不喜欢呢,CI/CD中轻松发送邮件

Jianmu

持续集成 低代码 邮件 通知

如何对话CIO/CTO

凌云Cloud

销售 企业管理系统 CIO To B业务

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践_大数据_徐晓博_InfoQ精选文章