Mooncake 正式开源！阿里云与清华大学共建AI大模型推理项目，加速大模型推理技术发展_生成式 AI_凌敏_InfoQ精选文章

AICon上海｜与字节、阿里、腾讯等企业共同探索Agent 时代的落地应用了解详情 



 写点什么

登录/注册



大小：366.02K时长：02:04

Mooncake 正式开源！阿里云与清华大学共建AI大模型推理项目，加速大模型推理技术发展

2024 年 6 月，国内优质大模型应用月之暗面 Kimi 与清华大学 MADSys 实验室（Machine Learning, AI, Big Data Systems Lab）联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构，大幅提升大模型应用 Kimi 智能助手推理吞吐的同时有效降低了推理成本，自发布以来受到业界广泛关注。近日，清华大学和研究组织 9#AISoft，联合以阿里云为代表的多家企业和研究机构，正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图

基于和清华大学之间的创新研究计划（AIR）项目，阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术，并做出了诸多技术成果积累。其中，为了加速大模型推理技术的发展，特别是推理实例共享的缓存池化层的标准化，阿里云与清华大学深度共建 Mooncake 项目，结合主流大模型推理框架，抽象缓存池化层的底层接口，实现高效分布式资源解耦架构。针对大模型场景进行深度优化，帮助提升大模型超长上下文的推理性能。

作为 AI 基础设施服务商，阿里云在 Mooncake 项目中，向传输引擎（Transfer Engine）、点对点存储（P2P Store）和高性能内存存储等关键组件贡献了代码。在推理框架层面，完成了与广泛使用的大模型推理框架 vLLM 的适配，大幅提升了推理性能，并为其他大模型推理框架的对接适配提供了参考实现，推动了大模型资源池化技术在业界的落地。在 Transfer Engine 层面，提供阿里云自研 eRDMA 网络的底层传输路径，并计划提供对于 CXL 的支持，保证用户能够在云上快速规模化部署。

清华大学 MADSys 实验室章明星教授表示，通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源，提升推理请求的处理速度，借助资源解耦架构来使能不同推理实例间的缓存共享，减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源，希望能够协同产学研力量共建开源社区，推动当下大模型推理系统的快速发展。

未来，阿里云会更深层次的参与 Mooncake 项目的共建，携手更多企业、机构、高校力量，持续探索更加高效和先进的模型推理系统架构创新，让大模型技术真正惠及千行百业。

Mooncake 项目开源地址：

https://github.com/kvcache-ai/mooncake

评论 1 条评论

发布

https://github.com/kvcache-ai/Mooncake 这上面没有代码，代码放在哪里了

2024-11-22 20:15 · 中国香港

 0 回复

没有更多了

从recat源码角度看setState流程

华为云区块链三大核心技术国际标准立项通过

华为云开发者联盟

区块链华为云

基于 RocketMQ 的 Dubbo-go 通信新范式

Apache RocketMQ

RocketMQ RPC dubbo-go dubbogo

高性能数据访问中间件 OBProxy（六）：一文讲透数据路由

OceanBase 数据库

火山引擎 DataTester 应用故事：一个A/B测试，将产品DAU提升了数十万

字节跳动数据平台

大数据 AB testing实战

python常用内置函数用法精要（二）

记录一次TiDB v5.2.3迁移到v6.1.0的过程

TiDB 社区干货传送门

迁移实践案例

商业智能BI工具如何选择？公司方面需学习具体方法

流量猫猫头

【从零开始学爬虫】采集猫眼电影热门资讯数据

前嗅大数据

爬虫数据采集爬虫软件爬虫教程数据采集教程

流程编排、如此简单-通用流程编排组件JDEasyFlow介绍

京东科技开发者

数据库架构服务端流程引擎流程编排

从元宇宙、地产数字化到呼叫中心，华为云携手伙伴共创新价值

华为云开发者联盟

云计算华为云元宇宙

六年三次架构迭代，OceanBase 单机分布式一体化会是大势所趋吗？

OceanBase 数据库

数据库 oceanbase

多点DMALL × Apache Kyuubi：构建统一SQL Proxy探索实践

hadoop spark 开源 Apache Kyuubi

聊聊Mybatis的类型转换的别名管理

急需上岸的小谢

【看球和学Go】错误和异常、CGO、fallthrough

Go golang 面试题 Go web 11月月更

BSN-DDC基础网络DDC SDK详细设计（六）：交易查询、区块查询、签名事件

记一次TiDB数据库Insert语句执行报错的处理过程

TiDB 社区干货传送门

自制操作系统日记（8）：变量显示

从react源码看hooks的原理

为什么 NGINX 的 reload 不是热加载？

API7.ai 技术团队

Apache nginx 开源 api 网关 APISIX

云享·人物丨造梦、探梦、筑梦，三位开发者在华为云上的寻梦之旅

华为云开发者联盟

云计算后端华为云

Python(文件操作)

Python 文件 11月月更

【11.18-11.25】写作社区优秀技术博文回顾

InfoQ写作社区官方

云原生系列【轻松入门容器基础操作】

云原生沙箱实验 11月月更

Fiori Elements 框架里 Smart Table 控件的工作原理介绍

SAP Fiori SAP UI5 ui5 11月月更

OceanBase 4.0 解读：分布式查询性能提升，我们是如何思考的？

OceanBase 数据库

数据库 oceanbase

瓴羊Quick BI工具，为数据分析人员带来帮助

流量猫猫头

信创产业多点开花，AntDB数据库积极参与行业标准研制，协同价值链伙伴共促新发展

亚信AntDB数据库

AntDB aisware antdb AntDB数据库

数据卡顿怎么办，瓴羊Quick BI强劲数据引擎来帮忙

袋鼠云数据湖平台「DataLake」，存储全量数据，打造数字底座

袋鼠云数栈

数据中台数据仓库数据湖数据中台场景实践数据湖分析

InterruptedException异常会对并发编程产生哪些影响？

并发编程多线程高并发协程异步编程