昨日,月之暗面旗下Kimi 開放平臺宣佈,上下文緩存(Context Caching)開始公測,該技術在 API 價格不變的前提下,可爲開發者降低最高90% 的長文本旗艦大模型使用成本,並且顯著提升模型的響應速度。
上下文緩存(Context Caching)是一種高效的數據管理技術,它允許系統預先存儲那些可能會被頻繁請求的大量數據或信息。這樣,當您再次請求相同信息時,系統可以直接從緩存中快速提供,而無需重新計算或從原始數據源中檢索,從而節省時間和資源。上下文緩存(Context Caching)特別適合用於頻繁請求,重複引用大量初始上下文的場景,可以顯著降低長文本模型費用並提高效率!

具體來說,「上下文緩存」可以應用於頻繁請求、重複引用大量初始上下文的場景,帶來以下兩方面效果:
費用最高降低90%:舉例來說,對於需要對固定文檔進行大量提問的場景,通過上下文緩存可以節省大量費用。例如,針對一個硬件產品說明書約9萬字的文檔,售前支持人員需要在短時間內密集進行多次問答,接入上下文緩存後,可以將費用降低至原本的10% 左右。
首 Token 延遲降低83%:對於一個128k 模型的一次請求,通常要花費30秒返回首 Token。通過上下文緩存,可以將首 Token 延遲平均降至5秒內,降低約83% 的延遲時間。
上下文緩存(Context Caching)的收費模式主要分爲以下三個部分:
Cache 創建費用:
調用 Cache 創建接口,成功創建 Cache 後,按照 Cache 中 Tokens 按實際量計費。24元/M token
Cache 存儲費用:
Cache 存活時間內,按分鐘收取 Cache 存儲費用。10元/M token/分鐘
Cache 調用費用:
Cache 調用增量 token 的收費:按模型原價收費
Cache 調用次數收費:
Cache 存活時間內,用戶通過 chat 接口請求已創建成功的 Cache,若 chat message 內容與存活中的 Cache 匹配成功,將按調用次數收取 Cache 調用費用。0.02元/次
