QCon北京「鸿蒙专场」火热来袭!即刻报名,与创新同行~ 了解详情
写点什么

Mooncake 正式开源!阿里云与清华大学共建 AI 大模型推理项目,加速大模型推理技术发展

  • 2024-11-28
    北京
  • 本文字数:907 字

    阅读完需:约 3 分钟

大小:366.02K时长:02:04
Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展

2024 年 6 月,国内优质大模型应用月之暗面 Kimi 与清华大学 MADSys 实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用 Kimi 智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。近日,清华大学和研究组织 9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图


基于和清华大学之间的创新研究计划(AIR)项目,阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术,并做出了诸多技术成果积累。其中,为了加速大模型推理技术的发展,特别是推理实例共享的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象缓存池化层的底层接口,实现高效分布式资源解耦架构。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。

 

作为 AI 基础设施服务商,阿里云在 Mooncake 项目中,向传输引擎(Transfer Engine)、点对点存储(P2P Store)和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,大幅提升了推理性能,并为其他大模型推理框架的对接适配提供了参考实现,推动了大模型资源池化技术在业界的落地。在 Transfer Engine 层面,提供阿里云自研 eRDMA 网络的底层传输路径,并计划提供对于 CXL 的支持,保证用户能够在云上快速规模化部署。

 

清华大学 MADSys 实验室章明星教授表示,通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源,提升推理请求的处理速度,借助资源解耦架构来使能不同推理实例间的缓存共享,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。

 

未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2024-11-28 09:5815633

评论 1 条评论

发布
用户头像
https://github.com/kvcache-ai/Mooncake 这上面没有代码,代码放在哪里了
2024-11-22 20:15 · 中国香港
回复
没有更多了
发现更多内容

关于体验设计的十大重要定律

石云升

读书笔记 用户体验 商业洞察 7月日更 体验设计

"开放数据,蔚然成林"—浪潮助力多地获得数据开放全国标杆

云计算

加码物联网安全,熵核科技做终端安全的守护者

熵核科技

学生管理系统详细架构设计文档

张文龙

#架构实战营

架构训练营 模块三

小卷儿

墙裂推荐!四面阿里拿 offer 后,才发现师哥给的面试笔记有多强大

Java 架构 IT 计算机 知识

Java版人脸检测详解上篇:运行环境的Docker镜像(CentOS+JDK+OpenCV)

编程菌

Java 编程 程序员 后端 java技术宅

都2021年了,还在问网络安全怎么入门,气得我当场脑血栓发作

网络安全学海

网络安全 信息安全 渗透测试 WEB安全 安全漏洞

极致性能一睹为快!阿里全新出品性能优化手册 从此拒绝系统瘫痪!

Java 编程 程序员 架构师 计算机

完善数字人民币发行应用机制 打造可靠金融基础设施

CECBC

偶获阿里大佬纯手码“887”页 Java 面试手册,突击学习一个月,成功跳槽阿里!

Java 编程 架构 面试 IT

粉了!京东商城核心亿级流量并发Java系统架构设计方案手册

Java架构追梦

Java 架构 面试 高并发 京东

CODING 携手 CoDesign:让设计与开发更简单

CODING DevOps

DevOps 设计 开发工具 CoDesign

spring,springboot,底层原理解析

java小李

应届女生美团Java岗4面,一次性斩offfer,我受到了万点暴击

编程菌

程序员 面试 后端 计算机

15年前的3篇论文,变成了万亿大生意

百度大脑

人工智能 论文

架构实战营 毕业总结

竹林七贤

Vue进阶(三十):element-ui 表单验证

No Silver Bullet

Vue 7月日更 表单校验

绝!阿里巴巴Java面试参考权威指南五月版最新开源

Java 阿里巴巴 架构 面试 IT

全网首发 20+ 互联网公司“Java 面试考点大全”,应有尽有

Java 编程 面试 IT 计算机

某宝付费的Redis核心原理深度实践PDF,竟在GitHub标星86k+霸榜

白亦杨

Java 编程 程序员 架构师 计算机

Vue进阶(三):Axios 应用详解

No Silver Bullet

Vue axios 7月日更

仅仅上线一小时,下载量就破10W!阿里内部Java性能优化实战手册

Java 编程 程序员 面试 IT

从简历被拒到收割 9 个大厂 offer,我用了 3 个月成功破茧成蝶

Java 编程 程序员 架构 计算机

一种Vue应用程序错误/异常处理机制

devpoint

Vue 异常处理 vue2 7月日更

基于深度学习的实时噪声抑制——深度学习落地移动端的范例

声网

人工智能 算法 移动端

CRUD 程序员勿进!JDK源码剖析手册与并发编程图册,完美诠释高并发

Java 编程 程序员 IT 计算机

祝贺中国跳水队夺金!百度智能云挺敢做梦的人

百度大脑

人工智能 跳水队

使用MLlib进行机器学习(十-下)

Databri_AI

spark 决策树 优化

阿里 P8 熬了一个月肝出这份 32W 字 Java 面试手册,在 Github 标星 31K+

Java 编程 架构 面试 IT

深入了解Spring之Environment

邱学喆

Profile Environment PropertySource PropertySources

Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展_生成式 AI_凌敏_InfoQ精选文章