Anthropic API 近日推出了提示緩存功能,開發人員現在可以在API調用之間緩存常用的上下文信息。通過提示緩存,客戶能夠爲Claude模型提供更多的背景知識和示例輸出,同時顯著降低長提示的成本,減少高達90%的費用,降低高達85%的延遲。

該功能目前已在Claude3.5Sonnet和Claude3Haiku的公開測試版中可用,未來還將支持Claude3Opus。

QQ截圖20240815093542.png

提示緩存功能特別適用於以下場景:當需要在多次請求中反覆引用大量提示上下文時,如對話代理中減少長對話的成本和延遲,尤其是在包含複雜指令或文檔上傳的情況下;編碼助手可以通過在提示中保留代碼庫的彙總版本來改進自動完成和代碼庫問答;處理大型文檔時,提示緩存能夠嵌入完整的長篇材料而不會增加響應時間;此外,對於涉及多輪工具調用和迭代更改的代理搜索和工具使用場景,提示緩存也能顯著提升性能。

QQ截圖20240815093549.png

提示緩存的定價取決於緩存的輸入令牌數量以及使用頻率。寫入緩存的成本比基本輸入令牌價格高出25%,而使用緩存內容的成本則大幅降低,僅爲基本輸入令牌價格的10%。

據悉,Notion 作爲Anthropic API的客戶,已將提示緩存功能集成到其人工智能助手Notion AI中。通過降低成本和提高速度,Notion優化了內部運營,併爲用戶帶來了更高級、更快速的體驗。