写点什么

Mooncake 正式开源!阿里云与清华大学共建 AI 大模型推理项目,加速大模型推理技术发展

  • 2024-11-28
    北京
  • 本文字数:907 字

    阅读完需:约 3 分钟

大小:366.02K时长:02:04
Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展

2024 年 6 月,国内优质大模型应用月之暗面 Kimi 与清华大学 MADSys 实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用 Kimi 智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。近日,清华大学和研究组织 9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图


基于和清华大学之间的创新研究计划(AIR)项目,阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术,并做出了诸多技术成果积累。其中,为了加速大模型推理技术的发展,特别是推理实例共享的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象缓存池化层的底层接口,实现高效分布式资源解耦架构。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。

 

作为 AI 基础设施服务商,阿里云在 Mooncake 项目中,向传输引擎(Transfer Engine)、点对点存储(P2P Store)和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,大幅提升了推理性能,并为其他大模型推理框架的对接适配提供了参考实现,推动了大模型资源池化技术在业界的落地。在 Transfer Engine 层面,提供阿里云自研 eRDMA 网络的底层传输路径,并计划提供对于 CXL 的支持,保证用户能够在云上快速规模化部署。

 

清华大学 MADSys 实验室章明星教授表示,通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源,提升推理请求的处理速度,借助资源解耦架构来使能不同推理实例间的缓存共享,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。

 

未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2024-11-28 09:5815824

评论 1 条评论

发布
用户头像
https://github.com/kvcache-ai/Mooncake 这上面没有代码,代码放在哪里了
2024-11-22 20:15 · 中国香港
回复
没有更多了
发现更多内容

可观测成熟度模型介绍(二)

乘云数字DataBuff

香港服务器如何帮助企业在线业务提供卓越性能和稳定性

一只扑棱蛾子

香港服务器

如何使用API接口获取商品数据,从申请API接口、使用API接口到实际应用,一一讲解

Noah

API 文档 API 开发

解锁Java面试中的锁:深入了解不同类型的锁和它们的用途

程序那些事

Java 面试 java面试 程序那些事 面试秘籍

Codigger的项目代码检测工具的特性和优势

知者如C

Java基础面试题【三】线程(1)

派大星

Java 面试题

2023年信创云管平台选哪家?咨询电话多少?

行云管家

云计算 云服务 信创 国产化

华为云智能化组装式交付方案 ——金融级PaaS业务洞察及Web3实践的卓越贡献

华为云PaaS服务小智

云计算 软件开发 华为云

MySQL事务死锁问题排查 | 京东云技术团队

京东科技开发者

MySQL 数据库 事务 死锁 企业号9月PK榜

垂直领域LLM训练推理全栈利器

百度开发者中心

#人工智能 LLM 大语言模型

向上管理:三个技巧,教会你如何与上级、老板高效协作

LigaAI

产品经理 技术管理 职场成长 向上管理 企业号9月PK榜

Springboot vs Quarkus

Kevin_913

代码层面探索前端性能 | 京东云技术团队

京东科技开发者

CSS 性能优化 前端 企业号9月PK榜

DAPP代币通缩燃烧销毁质押挖矿系统开发(成熟技术)

l8l259l3365

Vitess全局唯一ID生成的实现方案 | 京东云技术团队

京东科技开发者

MySQL 数据库 企业号9月PK榜 vitess

大模型在超算上的应用与发展

百度开发者中心

#人工智能 LLM 大模型推理 千帆大模型平台

cad设计绘图 AutoCAD 2024中文最新「支持m芯片」

胖墩儿不胖y

Mac软件 CAD绘图 cad工具

中国平煤神马集团 | 基于融合共享的经营管控多业务(1+2+N)共享中心建设实践

用友BIP

能源 数智化转型 共享中心

软件调研、研发、设计、管理、验收文档(全文档整理)

金陵老街

JDK安装与配置教程

小齐写代码

如何教会小白使用API接口获取商品数据

Noah

API 文档 API 开发

用友出席第六届中国企业论坛,分享央国企数智化转型方案

用友BIP

数智化转型

释放创新:与加密货币交易软件开发公司合作

区块链软件开发推广运营

数字藏品开发 dapp开发 区块链开发 链游开发 NFT开发

中文导航、本地指南一个App搞定,华为手机国庆出境游用Petal Maps就够了!

最新动态

小程序编译器性能优化之路

百度Geek说

小程序 性能优化 前端 企业号9月PK榜

从索引实现上来看看你用的 TDengine 为什么这么快!

TDengine

tdengine 时序数据库 国产时序数据库

数字化转型与架构-架构设计篇|软件开发框架帮我们做了什么?

数字随行

数字化转型

Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展_生成式 AI_凌敏_InfoQ精选文章