月之暗面科技有限公司與清華大學MADSys實驗室聯合發佈了一項名爲Mooncake的開源項目,旨在共建以KVCache爲中心的大模型推理架構。2024年6月,雙方曾聯合發佈Kimi底層的Mooncake推理系統設計方案,該方案基於PD分離和以存換算架構,顯著提升了推理吞吐量,受到業界廣泛關注。

Mooncake項目從論文延伸而來,以超大規模KVCache緩存池爲中心,通過以存換算的創新理念減少算力開銷,提升推理吞吐量。項目採用分階段開源方式,逐步開源高性能KVCache多級緩存Mooncake Store的實現,並針對各類推理引擎和底層存儲/傳輸資源進行兼容。目前,傳輸引擎Transfer Engine部分已在GitHub全球開源。

微信截圖_20241128110432.png

月之暗面Kimi工程副總裁許欣然表示,通過與清華大學MADSys實驗室的緊密合作,共同打造了分離式大模型推理架構Mooncake,實現了推理資源的極致優化。Mooncake不僅提升了Kimi的用戶體驗和降低了成本,還爲處理長文本和高併發需求提供了有效的解決方案。公司相信,通過與產學研機構的開源合作,可以推動整個行業向更高效的推理平臺方向發展,並邀請更多企業和研究機構加入Mooncake項目共建,共同探索更高效和先進的模型推理系統架構創新,讓基於大模型技術的AI助手等產品惠及更廣泛人羣。

項目地址:https://github.com/kvcache-ai/Mooncake