第三方平臺 DeepSeek-R1 穩定性測評：性能差異引發熱議

隨着中國 AI 公司 DeepSeek 推出的推理模型 DeepSeek-R1在全球範圍內受到關注，其在第三方平臺的穩定性表現成爲近期科技圈的熱門話題。根據 X 平臺上的最新討論和評測數據，DeepSeek-R1在不同託管平臺上的性能差異顯著，完整性、準確性和推理時間因平臺選擇而異。這一現象不僅揭示了模型部署的複雜性，也爲用戶選擇適合的託管服務提供了重要參考。

測試背景與方法

根據 X 用戶和專業評測機構的反饋，近期一項針對 DeepSeek-R1的跨平臺穩定性測試引發了廣泛關注。測試由中國軟件評測中心人工智能部牽頭，選取了包括納米 AI 搜索、阿里百鍊、硅基流動等在內的十餘家國內外第三方平臺，使用統一的20個基礎數學推理問題（由 SuperCLUE 團隊開發）作爲基準。評估主要聚焦三個維度:響應率、準確性以及推理時間，同時分析了免費與付費服務的差異。

DeepSeek

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

測試結果:穩定性差異顯著

測試結果顯示，DeepSeek-R1的穩定性高度依賴託管平臺。納米 AI 搜索因接入“滿血版” DeepSeek-R1並免費提供，表現尤爲突出。X 用戶 @op7418在2月27日發帖稱:“納米 AI 搜索第一時間接入了滿血版 DeepSeek-R1，在評測中表現優秀。”這一平臺以高響應率和穩定的輸出贏得好評，被認爲是對周鴻禕“AI 普及化”理念的踐行。

然而，其他平臺的表現則不盡如人意。X 用戶 @simonkuang938在2月24日指出，阿里百鍊的 DeepSeek-R1在處理複雜邏輯任務（如繪製圖表或流程圖）時，經常因顯存消耗過高而被截斷輸出，導致客戶端卡頓，儘管連接未斷開。他戲稱這種體驗“賤賤的”，反映出部分用戶對穩定性的不滿。

相比之下，硅基流動因限制贈金使用並提供穩定的付費版本，獲得了 @simonkuang938的肯定。他在2月22日表示:“像硅基流動這麼良心的平臺太少啦，R1是滿血版且沒有經過魔改。”這表明付費服務在穩定性上可能更具優勢。

用戶體驗與技術細節

從 X 上的用戶反饋來看，DeepSeek-R1在不同場景下的表現也各有千秋。@changli71829684在2月25日提到，R1在單次對話輸出超過3000字時容易陷入死循環，儘管其信息密度高，適合知識挖掘，但準確度和生產質量稍顯不足。他認爲該模型更適合“開腦洞”而非精確任務。此外，@oran_ge在1月29日測試 DeepSeek R1Zero 時發現，其未經監督微調（SFT）的版本在簡單問題上表現怪異，例如回覆“你好”時輸出數學公式，顯示出模型在特定場景下的不穩定性。

值得一提的是，部分用戶嘗試優化 R1的使用體驗。@oran_ge在2月12日分享了一種通過 API 聯網的方案，稱其“實測是最穩定速度最快的 R1使用體驗”，徹底解決了卡頓和聯網問題。這一探索表明，平臺之外的技術配置也可能影響穩定性。

行業意義與用戶建議

此次跨平臺測試不僅暴露了 DeepSeek-R1在部署上的挑戰，也引發了關於開源模型商業化與穩定性的討論。X 用戶普遍認爲，儘管 DeepSeek-R1在數學和編程基準測試中表現出色（如 MATH-500得分97.3%），但其實際應用中的穩定性仍需優化。免費服務的流量壓力和高負載可能導致性能下降，而付費平臺通過資源分配提供了更可靠的體驗。

對此，業內人士建議用戶根據需求選擇託管平臺。對於追求高響應率和完整輸出的開發者，納米 AI 搜索或硅基流動等表現穩定的服務是不錯選擇;而對於需要處理複雜推理任務的用戶，付費平臺可能更能滿足需求。同時，DeepSeek 官方被呼籲提供更多硬件支持或付費層級，以緩解免費服務的擁堵問題，正如 @GrayPsyche在2月8日帖文中所期待的那樣。

DeepSeek-R1的第三方平臺穩定性測評揭示了一個關鍵事實:模型的潛力雖大，但其實際表現因託管環境而異。從納米 AI 搜索的高效免費服務，到阿里百鍊的截斷問題，再到硅基流動的穩定付費體驗，用戶選擇需權衡成本與性能。隨着 AI 技術的普及，DeepSeek-R1的未來發展及其在全球市場的競爭力，或將取決於其能否解決這些穩定性挑戰。X 平臺的熱議仍在持續，這一話題無疑將繼續引領行業關注。

第三方平臺 DeepSeek-R1 穩定性測評：性能差異引發熱議

相關推薦

DeepSeek-R1 論文登上 Nature 封面，彰顯人工智能推理新突破

微軟推出新型 AI Agent 模型 rStar2-Agent，以 140 億參數挑戰大規模模型

美團發佈Meeseeks評測基準！o3-mini霸榜，DeepSeek-R1意外墊底引發熱議

AI 硬件新戰場！出門問問創始人揭祕未來科技與市場挑戰

DeepSeek 更新 R1 推理 AI 模型：代碼生成與複雜推理性能大幅提升推理能力比肩 o1

第三方平臺 DeepSeek-R1 穩定性測評：性能差異引發熱議

相關推薦

DeepSeek-R1 論文登上 Nature 封面，彰顯人工智能推理新突破

​微軟推出新型 AI Agent 模型 rStar2-Agent，以 140 億參數挑戰大規模模型

美團發佈Meeseeks評測基準！o3-mini霸榜，DeepSeek-R1意外墊底引發熱議

AI 硬件新戰場！出門問問創始人揭祕未來科技與市場挑戰

DeepSeek 更新 R1 推理 AI 模型：代碼生成與複雜推理性能大幅提升 推理能力比肩 o1

微軟推出新型 AI Agent 模型 rStar2-Agent，以 140 億參數挑戰大規模模型

DeepSeek 更新 R1 推理 AI 模型：代碼生成與複雜推理性能大幅提升推理能力比肩 o1