写点什么

Mooncake 正式开源!阿里云与清华大学共建 AI 大模型推理项目,加速大模型推理技术发展

  • 2024-11-28
    北京
  • 本文字数:907 字

    阅读完需:约 3 分钟

大小:366.02K时长:02:04
Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展

2024 年 6 月,国内优质大模型应用月之暗面 Kimi 与清华大学 MADSys 实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用 Kimi 智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。近日,清华大学和研究组织 9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图


基于和清华大学之间的创新研究计划(AIR)项目,阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术,并做出了诸多技术成果积累。其中,为了加速大模型推理技术的发展,特别是推理实例共享的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象缓存池化层的底层接口,实现高效分布式资源解耦架构。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。

 

作为 AI 基础设施服务商,阿里云在 Mooncake 项目中,向传输引擎(Transfer Engine)、点对点存储(P2P Store)和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,大幅提升了推理性能,并为其他大模型推理框架的对接适配提供了参考实现,推动了大模型资源池化技术在业界的落地。在 Transfer Engine 层面,提供阿里云自研 eRDMA 网络的底层传输路径,并计划提供对于 CXL 的支持,保证用户能够在云上快速规模化部署。

 

清华大学 MADSys 实验室章明星教授表示,通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源,提升推理请求的处理速度,借助资源解耦架构来使能不同推理实例间的缓存共享,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。

 

未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2024-11-28 09:5814257

评论 1 条评论

发布
用户头像
https://github.com/kvcache-ai/Mooncake 这上面没有代码,代码放在哪里了
2024-11-22 20:15 · 中国香港
回复
没有更多了
发现更多内容

啊哈!这段时间的学习感受

Nydia

8月日更

Seldon 使用 (五): engine & graph

托内多

tensorflow kubeflow seldon

Java大厂74道高级面试合集,附面试题

Geek_f90455

Java 程序员 后端

Java开发热门前沿知识,架构师必备技能

Geek_f90455

Java 程序员 后端

MediaMuxer实用封装

Changing Lin

8月日更

波宝TronLink钱包APP系统开发介绍

Geek_23f0c3

钱包系统开发 DAPP智能合约交易系统开发 波宝钱包

架构实战营-毕业设计

En wei

架构实战营

docker部署redis记录,楼主亲测无异常

小鲍侃java

8月日更

手撸二叉树之最小高度树

HelloWorld杰少

数据结构与算法 8月日更

Java开发者必须收藏的8个开源库,吊打面试官系列!

Geek_f90455

Java 程序员 后端

Rust从0到1-模式-使用场景

rust 模式 Patterns Matching

ECMAScript 2020(ES11)新特性简介

程序那些事

JavaScript ecmascript nodejs ES11 程序那些事

【Flutter 专题】79 图解 Android Native 集成 FlutterBoost 小尝试 (二)

阿策小和尚

Flutter 小菜 0 基础学习 Flutter Android 小菜鸟 8月日更

Java多线程从基础到并发模型统统帮你搞定!面试总结

Geek_f90455

Java 程序员 后端

Java工程师跳槽经验分享,看完跪了

Geek_f90455

Java 程序员 后端

Java开发究竟该如何学习,一文轻松搞定

Geek_f90455

Java 程序员 后端

架构实战营毕业总结

En wei

架构实战营

从 Druid 控制台(Druid console)中进行查询

HoneyMoose

分布式存储系统可靠性:系统量化估算

vivo互联网技术

分布式存储

几百行代码写个Mybatis,原理搞的透透的!

小傅哥

Java spring 源码 mybatis 代理

Java开发岗还不会这些问题,一文轻松搞定

Geek_f90455

Java 程序员 后端

FILECOIN矿池挖矿APP系统开发案例

获客I3O6O643Z97

挖矿矿池系统开发案例 fil挖矿

Java开发者值得深入思考的几个问题,建议收藏

Geek_f90455

Java 程序员 后端

在线短视频缩略图剪切工具

入门小站

工具

招商银行信用卡卡号识别项目(第一篇),Python OpenCV 图像处理取经之旅第 53 篇

梦想橡皮擦

8月日更

Java多线程实现方式及并发与同步,写的太详细了

Geek_f90455

Java 程序员 后端

外包学生管理系统架构设计文档

君子意如何

架构师训练营第 1 期 「架构师训练营第 1 期」

FastApi-01-初识

Python研究所

FastApi 8月日更

☕️【系统设计】如何设计出优雅且实用的API接口

码农架构

Java 架构设计 架构设计实战

用5W1H告诉你如何规划合理的测试策略

华为云开发者联盟

敏捷 敏捷开发 测试 测试策略 缺陷

十大排序算法--选择排序

Ayue、

排序算法 8月日更

Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展_生成式 AI_凌敏_InfoQ精选文章