正文

谷歌發佈 Gemini API 新定價策略，推理服務按需計費

發布於AI新閒資訊

時間 :Apr 3, 2026

閱讀 :1分鐘

谷歌近期對其 Gemini API 的計費結構進行了更新，旨在更好地滿足用戶的推理使用需求。這次更新帶來了多種新的服務檔位，包括標準、彈性、優先、批量和緩存版。用戶可以根據自身的實際需求選擇最合適的檔位。

首先，標準檔位提供了基礎的推理服務，用戶可以根據自己的使用情況進行選擇。彈性檔位則是一個創新的選擇，它利用非高峯時段的閒置算力資源，爲用戶提供了標準價格的五折優惠。這個檔位的目標延遲在 1 至 15 分鐘之間，但並不保證固定的延遲時間，適合那些對時間要求不太嚴格的應用場景。

此外，批量檔位同樣爲用戶提供了標準費率的五折優惠，適合需要處理大量數據的用戶，延遲時間最長可達 24 小時。此檔位特別適用於大規模的數據處理場景，用戶在進行大量信息查詢時可以大大節省成本。

在緩存檔位方面，計費將依據緩存的詞元數量與存儲時長進行，特別適合需要頻繁調用複雜指令的對話機器人、長視頻分析或大規模文檔集的查詢。這個檔位使得用戶能夠有效管理存儲和計算資源，提高系統的運行效率。

優先檔位的定價則比標準價格高出 75% 至 100%，但能夠在毫秒到秒級內控制延遲。這一檔位非常適合那些需要實時響應的應用，如客服聊天機器人、實時欺詐檢測和關鍵業務智能助手等場景。谷歌建議有需求的用戶選擇優先檔位，以確保他們的應用程序在響應速度和效率上的最佳表現。

劃重點：

🌟 新增多種 Gemini API 服務檔位，滿足不同用戶需求。

⏳ 彈性與批量檔位提供五折優惠，適合大規模數據處理。

⚡ 優先檔位確保毫秒級響應，適合實時應用場景。

谷歌全面擴容 Gemini API 免費額度：部分模型單分鐘吞吐量翻至百萬級

谷歌大幅上調Gemini API免費配額，部分賬號的Gemini 2.5 Flash及Flash-Lite輕量化模型每分鐘Token處理上限提升至100萬，已率先實施，降低開發者調用成本，凸顯算力競爭。

Google宣佈升級Gemini API文件搜索功能，基於Gemini Embedding2模型，突破文本檢索限制，整合圖像與複雜文檔，提升多模態RAG能力，助力企業級AI信息檢索準確性邁出關鍵一步。

2026年3月，Google DeepMind升級Gemini API，推出多工具鏈與“上下文循環”機制。此舉簡化了開發流程，允許在單個請求中整合Google搜索、地圖等內置工具與自定義函數。“上下文循環”實現了跨工具的自動化數據傳遞，提升了響應效率與任務處理能力。

谷歌宣佈將於2026年3月9日起停止Gemini3Pro Preview模型服務，並敦促開發者儘快遷移至3.1版本。過渡期分爲兩個節點：3月6日將模型別名指向新版，3月9日舊版正式停用。

Google推出Gemini API的“文件搜索工具”，作爲全託管RAG系統，可將私有文件直接轉化爲知識庫。用戶無需處理數據分塊、嵌入生成等步驟，通過API即可實現高效檢索與生成。工具核心是端到端集成，自動完成文件上傳、索引和檢索流程。

智啟未來，您的人工智能解決方案智庫