月之暗面 Kimi 開放平臺「上下文緩存」正式公測長文本模型降本 90%

昨日，月之暗面旗下Kimi 開放平臺宣佈，上下文緩存（Context Caching）開始公測，該技術在 API 價格不變的前提下，可爲開發者降低最高90% 的長文本旗艦大模型使用成本，並且顯著提升模型的響應速度。

上下文緩存（Context Caching）是一種高效的數據管理技術，它允許系統預先存儲那些可能會被頻繁請求的大量數據或信息。這樣，當您再次請求相同信息時，系統可以直接從緩存中快速提供，而無需重新計算或從原始數據源中檢索，從而節省時間和資源。上下文緩存（Context Caching）特別適合用於頻繁請求，重複引用大量初始上下文的場景，可以顯著降低長文本模型費用並提高效率!

微信截圖_20240702081354.png

具體來說，「上下文緩存」可以應用於頻繁請求、重複引用大量初始上下文的場景，帶來以下兩方面效果:

費用最高降低90%:舉例來說，對於需要對固定文檔進行大量提問的場景，通過上下文緩存可以節省大量費用。例如，針對一個硬件產品說明書約9萬字的文檔，售前支持人員需要在短時間內密集進行多次問答，接入上下文緩存後，可以將費用降低至原本的10% 左右。
首 Token 延遲降低83%:對於一個128k 模型的一次請求，通常要花費30秒返回首 Token。通過上下文緩存，可以將首 Token 延遲平均降至5秒內，降低約83% 的延遲時間。

上下文緩存（Context Caching）的收費模式主要分爲以下三個部分:

Cache 創建費用:
調用 Cache 創建接口，成功創建 Cache 後，按照 Cache 中 Tokens 按實際量計費。24元/M token
Cache 存儲費用:
Cache 存活時間內，按分鐘收取 Cache 存儲費用。10元/M token/分鐘
Cache 調用費用:
Cache 調用增量 token 的收費:按模型原價收費
Cache 調用次數收費:
Cache 存活時間內，用戶通過 chat 接口請求已創建成功的 Cache，若 chat message 內容與存活中的 Cache 匹配成功，將按調用次數收取 Cache 調用費用。0.02元/次

月之暗面開源Kimi CLI：命令行+AI代理雙模切換，開發者效率新利器來了

月之暗面推出開源命令行編碼工具Kimi CLI，進入技術預覽階段。該工具融合AI助手與Shell操作，支持雙模交互：既保留傳統命令行界面，又集成智能代理功能，可直接在終端執行自然語言指令，提升開發效率。代碼已在GitHub開源。

月之暗面發佈 Kimi K2-0905：支持60-100Token/s，高速 API 全面開放

月之暗面推出Kimi K2模型0905版本，編程能力與任務處理性能全面升級。新版模型強化Agentic Coding能力，在基準測試和實際編程任務中表現更優。前端編程體驗提升，代碼美觀實用。上下文長度從128K擴展至256K，支持更復雜長線任務。

月之暗面 Kimi 開放平臺「上下文緩存」正式公測長文本模型降本 90%

相關推薦

月之暗面 Kimi K2 Thinking 訓練成本被曝僅 460 萬美元，性能登頂人類終極考試

全新思考模型 “月之暗面 Kimi K2 Thinking” 發佈，AI的邊界再被突破！

月之暗面開源Kimi CLI：命令行+AI代理雙模切換，開發者效率新利器來了

Kimi k2性能被贊超越 GPT-5，月之暗面再獲數億美元重磅融資

月之暗面發佈 Kimi K2-0905：支持60-100Token/s，高速 API 全面開放

月之暗面 Kimi 開放平臺「上下文緩存」正式公測 長文本模型降本 90%

相關推薦

月之暗面 Kimi K2 Thinking 訓練成本被曝僅 460 萬美元，性能登頂人類終極考試

全新思考模型 “月之暗面 Kimi K2 Thinking” 發佈，AI的邊界再被突破！

月之暗面開源Kimi CLI：命令行+AI代理雙模切換，開發者效率新利器來了

Kimi k2性能被贊超越 GPT-5，月之暗面再獲數億美元重磅融資

月之暗面發佈 Kimi K2-0905：支持60-100Token/s，高速 API 全面開放

月之暗面 Kimi 開放平臺「上下文緩存」正式公測長文本模型降本 90%