近期,Google 宣佈在其 Gemini API 中推出一項新功能 —— 隱式緩存。這一功能旨在幫助第三方開發者在使用最新 AI 模型時節省成本,最高可達75% 的費用節約,尤其是在處理重複性上下文時效果顯著。

QQ_1746755605079.png

 隱式緩存的工作原理

隱式緩存的核心在於,它能夠自動識別並重用之前請求中相似的內容。Google 表示,這項新功能已默認開啓,適用於 Gemini2.5Pro 和2.5Flash 模型。當開發者向 Gemini2.5模型發送請求時,如果該請求與之前的某個請求存在相同的前綴,就有可能命中緩存,從而實現成本節約。

QQ_1746755617338.png

與此前的顯式緩存不同,開發者在使用隱式緩存時不再需要手動定義高頻請求。顯式緩存的方式雖然承諾了節省成本,但由於其需要大量手動配置,導致許多開發者對此頗感不滿,尤其是在最近幾周關於 API 費用過高的投訴不斷增加。

隱式緩存的優勢

隱式緩存的最大優勢在於其自動化程度。Google 在其官方博客中指出,當請求的上下文信息與先前請求相似時,系統會自動返回成本節約。這種方式簡化了開發者的操作流程,減輕了他們的負擔。

根據 Google 的開發者文檔,隱式緩存的最低提示令牌數爲2,048(針對2.5Pro 模型)和1,024(針對2.5Flash 模型),這意味着開發者只需提供少量信息即可觸發自動節省。令牌是模型處理的數據基本單元,大約1,000個令牌相當於750個單詞。

使用建議與注意事項

爲了更好地利用隱式緩存,Google 建議開發者在請求的開頭儘量放置重複的上下文內容,以增加命中緩存的機率。而可能會在請求間變化的上下文信息,則建議放在請求的末尾。

儘管 Google 對此次隱式緩存的效果充滿信心,但尚未提供第三方驗證,因此開發者在使用過程中仍需保持謹慎。隨着越來越多的開發者開始使用這一新功能,我們期待他們的反饋能夠驗證 Google 的承諾。

總的來說,Google 的隱式緩存功能無疑爲開發者提供了一個降低成本的新選擇。在 AI 模型的使用成本持續上升的背景下,這項創新功能的推出將對開發者社區產生積極影響。未來,隨着反饋的積累,我們也將看到這一功能的實際效果。

官方博客:https://developers.googleblog.com/en/gemini-2-5-models-now-support-implicit-caching/