隨着中國 AI 公司 DeepSeek 推出的推理模型 DeepSeek-R1在全球範圍內受到關注,其在第三方平臺的穩定性表現成爲近期科技圈的熱門話題。根據 X 平臺上的最新討論和評測數據,DeepSeek-R1在不同託管平臺上的性能差異顯著,完整性、準確性和推理時間因平臺選擇而異。這一現象不僅揭示了模型部署的複雜性,也爲用戶選擇適合的託管服務提供了重要參考。

測試背景與方法

根據 X 用戶和專業評測機構的反饋,近期一項針對 DeepSeek-R1的跨平臺穩定性測試引發了廣泛關注。測試由中國軟件評測中心人工智能部牽頭,選取了包括納米 AI 搜索、阿里百鍊、硅基流動等在內的十餘家國內外第三方平臺,使用統一的20個基礎數學推理問題(由 SuperCLUE 團隊開發)作爲基準。評估主要聚焦三個維度:響應率、準確性以及推理時間,同時分析了免費與付費服務的差異。

DeepSeek

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

測試結果:穩定性差異顯著

測試結果顯示,DeepSeek-R1的穩定性高度依賴託管平臺。納米 AI 搜索因接入“滿血版” DeepSeek-R1並免費提供,表現尤爲突出。X 用戶 @op7418在2月27日發帖稱:“納米 AI 搜索第一時間接入了滿血版 DeepSeek-R1,在評測中表現優秀。”這一平臺以高響應率和穩定的輸出贏得好評,被認爲是對周鴻禕“AI 普及化”理念的踐行。

然而,其他平臺的表現則不盡如人意。X 用戶 @simonkuang938在2月24日指出,阿里百鍊的 DeepSeek-R1在處理複雜邏輯任務(如繪製圖表或流程圖)時,經常因顯存消耗過高而被截斷輸出,導致客戶端卡頓,儘管連接未斷開。他戲稱這種體驗“賤賤的”,反映出部分用戶對穩定性的不滿。

相比之下,硅基流動因限制贈金使用並提供穩定的付費版本,獲得了 @simonkuang938的肯定。他在2月22日表示:“像硅基流動這麼良心的平臺太少啦,R1是滿血版且沒有經過魔改。”這表明付費服務在穩定性上可能更具優勢。

用戶體驗與技術細節

從 X 上的用戶反饋來看,DeepSeek-R1在不同場景下的表現也各有千秋。@changli71829684在2月25日提到,R1在單次對話輸出超過3000字時容易陷入死循環,儘管其信息密度高,適合知識挖掘,但準確度和生產質量稍顯不足。他認爲該模型更適合“開腦洞”而非精確任務。此外,@oran_ge在1月29日測試 DeepSeek R1Zero 時發現,其未經監督微調(SFT)的版本在簡單問題上表現怪異,例如回覆“你好”時輸出數學公式,顯示出模型在特定場景下的不穩定性。

值得一提的是,部分用戶嘗試優化 R1的使用體驗。@oran_ge在2月12日分享了一種通過 API 聯網的方案,稱其“實測是最穩定速度最快的 R1使用體驗”,徹底解決了卡頓和聯網問題。這一探索表明,平臺之外的技術配置也可能影響穩定性。

行業意義與用戶建議

此次跨平臺測試不僅暴露了 DeepSeek-R1在部署上的挑戰,也引發了關於開源模型商業化與穩定性的討論。X 用戶普遍認爲,儘管 DeepSeek-R1在數學和編程基準測試中表現出色(如 MATH-500得分97.3%),但其實際應用中的穩定性仍需優化。免費服務的流量壓力和高負載可能導致性能下降,而付費平臺通過資源分配提供了更可靠的體驗。

對此,業內人士建議用戶根據需求選擇託管平臺。對於追求高響應率和完整輸出的開發者,納米 AI 搜索或硅基流動等表現穩定的服務是不錯選擇;而對於需要處理複雜推理任務的用戶,付費平臺可能更能滿足需求。同時,DeepSeek 官方被呼籲提供更多硬件支持或付費層級,以緩解免費服務的擁堵問題,正如 @GrayPsyche在2月8日帖文中所期待的那樣。

DeepSeek-R1的第三方平臺穩定性測評揭示了一個關鍵事實:模型的潛力雖大,但其實際表現因託管環境而異。從納米 AI 搜索的高效免費服務,到阿里百鍊的截斷問題,再到硅基流動的穩定付費體驗,用戶選擇需權衡成本與性能。隨着 AI 技術的普及,DeepSeek-R1的未來發展及其在全球市場的競爭力,或將取決於其能否解決這些穩定性挑戰。X 平臺的熱議仍在持續,這一話題無疑將繼續引領行業關注。