写点什么

Mooncake 正式开源!阿里云与清华大学共建 AI 大模型推理项目,加速大模型推理技术发展

  • 2024-11-28
    北京
  • 本文字数:907 字

    阅读完需:约 3 分钟

大小:366.02K时长:02:04
Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展

2024 年 6 月,国内优质大模型应用月之暗面 Kimi 与清华大学 MADSys 实验室(Machine Learning, AI, Big Data Systems Lab)联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用 Kimi 智能助手推理吞吐的同时有效降低了推理成本,自发布以来受到业界广泛关注。近日,清华大学和研究组织 9#AISoft,联合以阿里云为代表的多家企业和研究机构,正式开源大模型资源池化项目 Mooncake。希望更多的厂商与开发者共建高性能推理框架底层基础设施的开源生态。

Mooncake架构图


基于和清华大学之间的创新研究计划(AIR)项目,阿里云和清华大学共同探讨如何在实际工业界应用大模型资源池化技术,并做出了诸多技术成果积累。其中,为了加速大模型推理技术的发展,特别是推理实例共享的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象缓存池化层的底层接口,实现高效分布式资源解耦架构。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。

 

作为 AI 基础设施服务商,阿里云在 Mooncake 项目中,向传输引擎(Transfer Engine)、点对点存储(P2P Store)和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,大幅提升了推理性能,并为其他大模型推理框架的对接适配提供了参考实现,推动了大模型资源池化技术在业界的落地。在 Transfer Engine 层面,提供阿里云自研 eRDMA 网络的底层传输路径,并计划提供对于 CXL 的支持,保证用户能够在云上快速规模化部署。

 

清华大学 MADSys 实验室章明星教授表示,通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源,提升推理请求的处理速度,借助资源解耦架构来使能不同推理实例间的缓存共享,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。

 

未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。


Mooncake 项目开源地址:

https://github.com/kvcache-ai/mooncake

2024-11-28 09:5815179

评论 1 条评论

发布
用户头像
https://github.com/kvcache-ai/Mooncake 这上面没有代码,代码放在哪里了
2024-11-22 20:15 · 中国香港
回复
没有更多了
发现更多内容

ClickHouse技术研究及语法简介 | 京东云技术团队

京东科技开发者

MySQL elasticsearch Clickhouse TiDB 企业号 6 月 PK 榜

Spring源码核心剖析 | 京东云技术团队

京东科技开发者

spring bean 企业号 6 月 PK 榜 SpringAOP

【SIGMOD 2023】深度学习弹性数据流水线系统GoldMiner,大幅提升任务和集群效率

阿里云大数据AI技术

人工智能 深度学习 数据库 企业号 6 月 PK 榜

程序员常见的6种最佳实践

互联网工科生

程序员 前端 技巧

到底什么是Java AIO?为什么Netty会移除AOI?一文搞懂AIO的本质!

JackJiang

网络编程 即时通讯 IM

软件测试/测试开发丨学习笔记之Python控制流-分支、循环

测试人

Python 程序员 软件测试 分支 循环

以创新驱动增长,百度营销助力成人教育机构迎战金秋季

科技热闻

使用 Midjourney 进行 UI/UX 设计的一些典型场景

汪子熙

人工智能 ChatGPT MidJourney 6 月 优质更文活动

深度解读 Linux 内核级通用内存池 —— kmalloc 体系

bin的技术小屋

内存管理 Linux内核 Linux内核源码 kernel

科勒亮相设计上海2023,全方位打造敢创艺术空间

科技热闻

SAP UI5 OData 谣言粉碎机:极短时间内发送两个 Odata 请求,前一个会自动被 cancel 掉吗

汪子熙

SAP OData ui5 思爱普 6 月 优质更文活动

为什么要学3D建模呢?

Finovy Cloud

3d建模

详解深度学习中推荐系统的经典模型

华为云开发者联盟

人工智能 华为云 华为云开发者联盟 企业号 6 月 PK 榜

常用的表格检测识别方法——表格内容识别方法

合合技术团队

人工智能 表格识别 表格检测

MySQL一个关于derived table的bug描述与规避

GreatSQL

开发者聚焦 | 不容错过的开发者新专栏就要来啦!

亚马逊云科技 (Amazon Web Services)

亚马逊云科技

SLF4J门面日志框架源码探索 | 京东云技术团队

京东科技开发者

jdk slf4j 源码剖析 企业号 6 月 PK 榜

检测客户端访问设备的一种新方法

为自己带盐

.net core 设备检测

聊聊 220V交流 过零检测

矜辰所致

电路设计 过零检测 6 月 优质更文活动

稳,从数据库连接池 testOnBorrow 看架构设计 | 京东云技术团队

京东科技开发者

数据库 架构设计 数据库连接池 企业号 6 月 PK 榜 testOnBorrow

Idea Mybatis插件:提高CRUD效率

林贻民

MySQL mybatis IntelliJ IDEA

Go应用性能优化的8个最佳实践,快速提升资源利用效率!

SEAL安全

Go 企业号 6 月 PK 榜

SUFS: 存储资源使用量预测服务

KaiwuDB

KaiwuDB 存储资源使用量预测

师资培训通知 | 数字化转型背景下《经管大数据》课程教学能力进阶提升训练营

ModelWhale

数据分析 大数据课程 经管 师资培训

师资培训|《经管大数据》课程教学能力提升训练营课程安排

ModelWhale

数据分析 数据科学 经管 交叉学科 师资

Wallys/wifi 6 router ipq8072 enterprise wireless dual band /support wifi6e card

Cindy-wallys

IPQ8072

Spring应用启动分析优化

林贻民

字节码插桩 字节码增强 spring-boot

视频直播源码技术知识分享:连麦功能

山东布谷科技

软件开发 源码搭建 直播源码 短视频直播源码

Mooncake 正式开源!阿里云与清华大学共建AI大模型推理项目,加速大模型推理技术发展_生成式 AI_凌敏_InfoQ精选文章