近期,康奈爾大學等機構的研究人員對包括GPT-4o、Claude和Gemini在內的多個生成式AI模型進行了幻覺基準測試。研究發現,即使是最先進的模型也只有約35%的時間能生成無幻覺文本,表明AI可靠性仍有待提高。
研究者通過法律、健康、歷史等主題的權威來源進行事實覈查,設計了一套包含維基百科未涵蓋內容的問題集。結果顯示,OpenAI的模型整體表現最佳,但與舊版GPT-3.5相比進步有限。有趣的是,模型大小並不決定幻覺頻率,較小模型如Claude3Haiku與較大模型表現相當。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究合著者趙文婷指出,即使是能在線搜索的模型也難以解決"非Wiki"問題,反映了維基百科對模型影響深遠。她預計幻覺問題將"持續很長時間",部分原因在於訓練數據本身可能包含錯誤信息。
一個暫時解決方案是增加模型的拒答頻率。Claude3Haiku通過僅回答72%的問題,成爲最"誠實"的模型。然而,這種策略可能影響用戶體驗。
趙建議,徹底消除幻覺可能不現實,但可通過人爲事實覈查、提供引用等方式減輕問題。她呼籲制定相關政策,確保人類專家參與驗證AI生成信息的過程。