2024 年 6 月,国内优质大模型应用 Kimi 与清华大学 MADSys(Machine Learning, AI, Big Data Systems)实验室联合发布了以 KVCache 为中心的大模型推理架构 Mooncake。通过使用以 KVCache 为中心的 PD 分离和以存换算架构,大幅提升大模型应用 Kimi.ai 推理吞吐的同时有效降低了推理成本,自发布之日受到业界广泛关注。近日,清华大学和 9#AISoft 联合以阿里云为代表的多家企业和研究机构,正式开源大模型 KVCache 项目 Mooncake。希望更多的厂商与开发者共建高性能 KVCache 开源生态。
为了加速大模型推理技术的发展,特别是以 KVCache 为中心的缓存池化层的标准化,阿里云与清华大学深度共建 Mooncake 项目,结合主流大模型推理框架,抽象池化 KVCache 的底层接口,实现高效分布式 KVCache。针对大模型场景进行深度优化,帮助提升大模型超长上下文的推理性能。
作为 AI 基础设施服务商,阿里云在 Mooncake 项目中,向 Transfer Engine,P2P Store 和高性能内存存储等关键组件贡献了代码。在推理框架层面,完成了与广泛使用的大模型推理框架 vLLM 的适配,取得了优异的性能提升,并为其他大模型推理框架的对接适配提供了参考实现。在 Transfer Engine 层面,提供了 CXL 和阿里云自研 eRDMA 网络的支持,可以通过 eRDMA 网络支持云上快速规模化部署。
清华大学 MADSys 实验室章明星教授表示,通过 Mooncake 可以充分利用 AI Infra 中的 CPU、内存和 SSD 资源,,提升推理请求的处理速度,借助资源解耦架构和池化 KVCache,减少资源浪费。此次联合阿里云一起将 Mooncake 项目开源,希望能够协同产学研力量共建开源社区,推动当下大模型推理系统的快速发展。
未来,阿里云会更深层次的参与 Mooncake 项目的共建,携手更多企业、机构、高校力量,持续探索更加高效和先进的模型推理系统架构创新,让大模型技术真正惠及千行百业。
评论