近日,Vectara 的機器學習團隊對 DeepSeek 系列的兩款模型進行了深入的幻覺測試,結果顯示,DeepSeek-R1的幻覺率高達14.3%,顯著高於其前身 DeepSeek-V3的3.9%。這表明,在增強推理的過程中,DeepSeek-R1產生了更多不準確或與原始信息不一致的內容。該結果引發了對推理增強大語言模型(LLM)產生幻覺率的廣泛討論。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究團隊指出,推理增強模型可能會比普通的大語言模型更容易產生幻覺。這一現象在 DeepSeek 系列與其他推理增強模型的比較中表現得尤爲明顯。以 GPT 系列爲例,推理增強的 GPT-o1與普通版 GPT-4o 之間的幻覺率差異,也驗證了這一推測。
爲了評估這兩款模型的表現,研究人員使用了 Vectara 的 HHEM 模型和 Google 的 FACTS 方法進行判斷。HHEM 作爲專門的幻覺檢測工具,在捕捉 DeepSeek-R1的幻覺率增加時表現出較高的靈敏度,而 FACTS 模型在這方面的表現則相對遜色。這提示我們,可能 HHEM 比 LLM 作爲標準更加有效。
值得注意的是,DeepSeek-R1儘管在推理能力上表現出色,但卻伴隨着更高的幻覺率。這可能與推理增強模型所需處理的複雜邏輯有關。隨着模型推理的複雜性增加,生成內容的準確性反而可能受到影響。研究團隊還強調,若 DeepSeek 在訓練階段能夠更關注減少幻覺問題,或許能實現推理能力與準確性之間的良好平衡。
雖然推理增強模型通常表現出更高的幻覺率,但這並不意味着它們在其他方面不具優勢。對於 DeepSeek 系列來說,仍需在後續的研究和優化中,解決幻覺問題以提升整體模型性能。
參考資料:https://www.vectara.com/blog/deepseek-r1-hallucinates-more-than-deepseek-v3