耶路撒冷希伯來大學的研究人員最近發現,在檢索增強生成(RAG)系統中,即使總文本長度保持不變,處理的文檔數量也會顯著影響語言模型的性能。

研究團隊利用MuSiQue驗證數據集中的2,417個問題進行實驗,每個問題鏈接到20個維基百科段落。其中兩到四段包含相關答案信息,其餘段落作爲干擾項。爲研究文檔數量的影響,團隊創建了多個數據分區,逐步將文檔數量從20個減少到最少只保留包含相關信息的2-4個文檔。爲確保總標記數一致,研究人員使用原始維基百科文章的文本擴展了保留的文檔。

QQ20250331-104138.png

實驗結果表明,在大多數情況下,減少文檔數量可提高語言模型性能約10%。研究測試了包括Llama-3.1、Qwen2和Gemma2在內的多個開源模型。值得注意的是,Qwen2模型表現出例外,能夠在文檔數量變化時保持相對穩定的性能,而Llama-3.1和Gemma-2的性能隨着文檔數量增加明顯下降。

QQ20250331-104151.png

當僅提供包含支持性信息的文檔時,所有模型表現都明顯提升,這表明RAG系統中常見的相似但不相關的文檔會使模型混淆並降低性能。有趣的是,模型在處理明顯不相關的隨機文檔時表現反而更好,說明它們更容易識別和過濾明顯無關內容。

QQ20250331-104158.png

研究人員強調,在設計檢索系統時需要平衡相關性和多樣性,以減少信息衝突。他們也承認研究存在一些侷限性,包括缺乏對提示變化和數據順序影響的分析。該團隊已公開數據集,以促進這一領域的進一步研究。