欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 新闻 > 资讯 > Kimi悄悄开源了自家推理框架Mooncake~

Kimi悄悄开源了自家推理框架Mooncake~

2025/2/24 21:25:31 来源:https://blog.csdn.net/AIBigModel/article/details/144187066  浏览:    关键词:Kimi悄悄开源了自家推理框架Mooncake~

Mooncake是为Kimi服务的平台,Kimi是由Moonshot AI提供的领先的大型语言模型(LLM)服务。

图片

Mooncake以KVCache为中心的解耦架构,将预填充和解码集群分开。它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的解耦缓存。

图片

Mooncake的核心是其以KVCache为中心的调度器,它在最大化整体有效吞吐量的同时,满足与延迟相关的服务水平目标(SLOs)要求。与假设所有请求都将被处理的传统研究不同,Mooncake面临着由于高度过载场景带来的挑战。为了缓解这些问题,开发了一种基于预测的早期拒绝策略。实验表明,Mooncake在长上下文场景中表现出色。与基线方法相比,在某些模拟场景中,Mooncake可以实现高达525%的吞吐量增加,同时遵守SLOs。在实际工作负载下,Mooncake的创新架构使Kimi能够处理比之前多75%的请求。

图片

  • Mooncake的底层部分是传输引擎(Transfer Engine),它支持通过TCP、RDMA、基于NVIDIA GPUDirect的RDMA以及NVMe over Fabric(NVMe-of)协议进行快速、可靠和灵活的数据传输。与gloo(分布式PyTorch使用的)和TCP相比,Mooncake传输引擎具有最低的I/O延迟。

  • 基于传输引擎,实现了点对点存储库(P2P Store library),支持在集群中的节点之间共享临时对象(例如,检查点文件)。它避免了单台机器上的带宽饱和。

  • 此外,修改了vLLM,以便集成传输引擎。它通过利用RDMA设备,使预填充-解码解耦更加高效。

  • 未来,计划在传输引擎的基础上构建Mooncake Store,它支持池化的KVCache,以实现更灵活的预填充/解码(P/D)解耦。

https://arxiv.org/pdf/2407.00079https://github.com/kvcache-ai/Mooncake

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词