最近,佐治亞理工學院和英偉達的兩位華人學者提出了一種名爲RankRAG的新型微調框架,這個框架極大簡化了原本複雜的RAG流水線,使用微調方法讓同一個LLM完成檢索、排名和生成任務,結果還實現了性能的大幅提升。

QQ截圖20240710105156.jpg

RAG(Retrieval-Augmented Generation)是LLM部署中常用的技術,特別適合需要大量事實知識的文本生成任務。通常,RAG的流程是:基於文本編碼的稠密模型從外部數據庫中檢索top-k文本段,然後LLM進行讀取和生成。這個流程已經被廣泛使用,但也有侷限,比如k值選擇。如果k值太大,即使是支持長上下文的LLM也難以快速處理;如果k值太小,又需要高召回率的檢索機制,而現有的檢索器和排名模型各有不足。

基於上述問題,RankRAG框架提出了新思路:通過微調擴展LLM能力,讓LLM自己完成檢索和排名。實驗結果表明,這種方法不僅提高了數據效率,還顯著增強了模型性能。特別是在多個通用基準和生物醫學知識密集型基準上,RankRAG微調出的Llama38B/70B模型,分別超過了ChatQA-1.58B和ChatQA-1.570B模型。

QQ截圖20240710105208.jpg

RankRAG的關鍵在於其高度的交互性和可編輯性。用戶不僅可以實時查看AI生成的內容,還能直接在界面上進行編輯和迭代。這種即時反饋機制大大提高了工作效率,讓AI真正成爲創作過程中的得力助手。更令人興奮的是,本次更新讓這些Artifacts不再侷限於Claude平臺內部,用戶可以輕鬆地將它們分享到任何地方。

這次RankRAG微調框架的創新還包括兩個階段的指令微調。第一階段進行監督微調(SFT),混合多個數據集以提高LLM的指令跟隨能力。第二階段的微調數據集包含多種QA數據、檢索增強的QA數據和上下文排名數據,進一步提升LLM的檢索和排名能力。

在實驗中,RankRAG在九個通用領域數據集上的表現始終優於當前的開源SOTA模型ChatQA-1.5。特別是在具有挑戰性的QA任務中,如長尾QA和多跳QA,RankRAG比ChatQA-1.5提高了10%以上的性能。

總的來說,RankRAG不僅在檢索和生成任務中表現出色,還在生物醫學RAG基準Mirage上展示了其強大的適應性。即使在沒有微調的情況下,RankRAG在醫學問答任務上的表現也超過了許多專業領域的開源模型。

隨着RankRAG框架的提出和不斷完善,我們有理由相信,AI與人類協作創作的未來將更加光明。無論是獨立開發者還是研究人員,都能利用這一創新框架激發出更多創意和可能性,推動技術和應用的發展。

論文地址:https://arxiv.org/abs/2407.02485