硅基流動(SiliconCloud)宣佈對其 DeepSeek-R1等推理模型 API 進行了一次重要升級,旨在更好地滿足開發者對長上下文和靈活參數配置的需求。此次升級中,多個推理模型的最大上下文長度被提升至128K,使得模型在思考時能夠更加充分,輸出內容也更爲完整。
在此次升級中,多個知名模型,如 Qwen3、QWQ、GLM-Z1等,均支持128K 的最大上下文長度,而 DeepSeek-R1則支持96K。這一提升爲複雜推理任務,如代碼生成和智能體的應用提供了強有力的支持。
更爲重要的是,硅基流動還引入了獨立控制 “思維鏈” 和 “回覆內容” 長度的功能。通過這種方式,開發者能夠更加高效地利用模型的推理能力。最大回覆長度(max_tokens)現在僅用於限制模型最終輸出給用戶的內容,而思維鏈長度(thinking_budget)則專門用來控制模型在思考階段的 Token 使用量。這樣的設計使得開發者能夠根據實際任務的複雜程度,靈活調整模型的思考深度和輸出長度。
以 SiliconCloud 平臺的 Qwen3-14B 爲例,用戶可以通過設置 thinking_budget 和 max_tokens 來分別控制模型的最大思維鏈長度和最大回覆長度。在推理過程中,若思考階段生成的 Token 數達到 thinking_budget,Qwen3系列推理模型會強制停止思維鏈推理。而對於其他推理模型,則可能會繼續輸出思考內容。
此外,如果最大回覆長度超過 max_tokens 或上下文長度超出 context_length 限制,模型輸出的回覆內容將會被截斷,響應中的 finish_reason 字段將標記爲 length,表示因長度限制而終止輸出。
欲瞭解更多關於 API 使用的細節,用戶可以訪問硅基流動的官方文檔。隨着硅基流動的不斷創新,用戶體驗將持續提升,更多功能也將相繼推出。
https://docs.siliconflow.cn/cn/userguide/capabilities/reasoning
劃重點:
🔹 支持128K 最大上下文長度,提升模型思考和輸出能力。
🔹 獨立控制思維鏈和回覆內容長度,提高開發者靈活性。
🔹 若達到長度限制,模型輸出將會被截斷,並標記原因。