写点什么

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

  • 2023-11-23
    北京
  • 本文字数:1060 字

    阅读完需:约 3 分钟

大小:543.74K时长:03:05
阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践

QCon 全球软件开发大会,将于 12 月在上海召开。美国五百强公司高级数据科学家王元将发表题为《LLM 训练推理加速在阿里巴巴的实践》主题分享,探讨基于 TensorRT LLM, Maga Transformer 框架和 LLM 推理平台产品,该系统支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,可以进一步提高推理效率并降低存储和计算需求。


杨斯然,目前是爱橙科技智能引擎事业部大模型训练团队负责人。自 2017 年开始在阿里从事深度学习训练系统的开发,工作包括图学习系统 Euler、稀疏模型训练系统 XDL、高性能稀疏模型训练、大语言模型训练系统等。他在本次会议的演讲内容如下:


演讲:LLM 训练推理加速在阿里巴巴的实践


在大规模语言模型 (LLM) 的训练和推理实践中,工程和算法需求间存在许多需要细心权衡的问题。这些问题涉及到从软硬件协同优化,到分布式处理,以及至算法工程 Co-design 等多个领域。为了解决这些挑战,我们深入研究了不同的应用场景和流量特性,并因此对我们的系统进行了全面优化。


尽管从 HuggingFace 上可以拿到 LLaMA 等模型的代码,但用自己的数据训练一个 LLaMA 模型对个人用户或中小型组织并不是一件低成本且简单的工作。Megatron-LLaMA 框架基于有着成熟社区的 Megatron-LM 项目,充分降低了 LLaMA 等开源模型的训练成本和门槛。


Megatron-LLaMA 中包含了:


  1. 基于社区 HuggingFace LLaMA 模型的续训能力;

  2. 在不同规模、硬件上大模型训练的最佳实现;

  3. 针对训练成本的性能优化。


在推理方面,基于 TensorRT LLM,我们进一步研发了 Maga Transformer 框架和 LLM 推理平台产品。这个系统通过应用一套统一的框架和多种不同的策略,成功地优化了不同推理场景下的成本和用户体验。我们全面支持各种开源和内部 LLM 模型,以 LLaMA 7B 和 Falcon 180B 为例,我们的系统达到了 xxx 的性能水平,这一结果充分证明了我们的系统在处理大规模数据时的卓越性能。


此外,我们的系统还广泛支持各种量化和剪枝方法,以及 KVCache Reuse、Speculative Decoding、Medusa 等辅助优化方法,这可以进一步提高推理效率并降低存储和计算需求。这一系列的特性使得我们的系统在处理大规模语言模型推理时表现出强大的竞争力。


除上述演讲外,QCon 上海还将围绕 GenAI和通用大模型应用探索AI Agent 与行业融合应用的前景LLM 时代的性能优化智能化信创软件 IDE面向人工智能时代的架构性能工程:提升效率和创新的新方法等专题进行交流。


QCon 上海 2023,相约 12 月! 现在购票,享 8 折优惠,立减¥1360!咨询购票请联系:18514549229(微信同手机号)。



2023-11-23 11:307035
用户头像

发布了 89 篇内容, 共 45.1 次阅读, 收获喜欢 12 次。

关注

评论

发布
暂无评论
发现更多内容

开心档之MySQL 序列使用

汇量科技使用倚天710云实例,高效处理大流量广告请求

云布道师

阿里云

跨系统数据一致性问题解决方案汇总

架构精进之路

系统架构 数据一致性 三周年连更

华为云网站安全解决方案:守护企业数字化转型之路,提升业务效率与安全

YG科技

数据库、

接口测试利器:AREX

AREX 中文社区

测试 自动化测试 接口测试 回归测试

文心一言 VS chatgpt (11)-- 算法导论2.3 7题 3.1 4~5题

福大大架构师每日一题

福大大 ChatGPT 文心一言

华为云网站安全解决方案:全面保障企业网络安全,助力业务稳定高效运行

YG科技

Kyligence CTO|消除技术门槛,人人可用的敏捷数据工具

Kyligence

数据分析 指标平台

回顾2022:Web性能方面有哪些新功能

南城FE

性能优化 前端

FastAPI 快速开发 Web API 项目: 模板和 Jinja 介绍

宇宙之一粟

Python FastApi 三周年连更 Jinja2

Go语言并发编程利器(一):如何正确使用Channel

Jack

华为云网站安全解决方案:守护您的网站,让安全无忧

YG科技

字节跳动副总裁杨震原:好的AI基础设施,如何激发工程师创造力?

字节跳动技术范儿

机器学习 字节跳动 算法 模型训练 算法工程师

保姆级教程!如何在 Anolis 8 上构建基于 Nydus 和 Dragonfly 的镜像加速解决方案?

OpenAnolis小助手

Linux 开源 镜像 解决方案 龙蜥社区

一文详解 PoseiSwap,Nautilus Chain 上的首个 DEX

股市老人

华为云:网络安全愈发重要,企业该如何保障自身业务安全?

YG科技

灵活应用Nginx Map:实战经验与实用方法

小毛驴的烂笔头

nginx linux运维 Nginx实践

开心档之C++ STL 教程

雪奈椰子

Vue3 使用 Teleport 封装 一个 Dialog

程序员海军

Vue Vue 3 三周年连更

一文掌握 Go fmt 标准库常用方法的使用

陈明勇

Go golang 三周年连更 输入输出 fmt

基于TCP协议的Socket通信

梦笔生花

TCP协议 Socket请求 三周年连更

中小企业如何保障网络安全?用了这么多项目华为云其实还不错!

YG科技

IT分享丨我是如何利用华为云网站安全解决方案帮助中小型企业实现IT安全

YG科技

苹果怎么查看UDID iPhone/iPad查看UDID教程【详解】

雪奈椰子

HTTP事务的时延

阿泽🧸

三周年连更 HTTP时延

一文读懂 Spring Bean 的生命周期

老周聊架构

三周年连更

SoapUI参数传递操作详解

Liam

Postman 开发工具 接口测试 soapui

iOS MachineLearning 系列(2)—— 静态图像分析之矩形识别

珲少

【Java技术指南】「Unirest编程专题」一起认识一下一个“灰常”优秀的Http工具,让Http开发变得如此简单

洛神灬殇

Java HTTP 4月日更 Unirest

2023-04-18:ffmpeg中的hw_decode.c的功能是通过使用显卡硬件加速器(如 NVIDIA CUDA、Intel Quick Sync Video 等)对视频进行解码,从而提高解码效

福大大架构师每日一题

golang 音视频 ffmpeg 福大大

阿里巴巴高级技术专家杨斯然确认出席 QCon 上海,分享 LLM 训练推理加速在阿里巴巴的实践_大数据_徐晓博_InfoQ精选文章