近日,南京大學的周志華教授團隊發佈了一項重要研究,首次理論證明了在大語言模型中可以發現內源性獎勵模型,並有效應用強化學習(RL)來提升模型表現。
當前,許多對齊方法依賴於人類反饋強化學習(RLHF),這種方法需要大量高質量的人類偏好數據來訓練獎勵模型。然而,構建這樣一個數據集不僅耗時費力,還面臨成本高昂的挑戰。因此,研究者們開始探索替代方案,其中基於 AI 反饋的強化學習(RLAIF)受到關注。這種方法利用強大的大語言模型自身生成獎勵信號,以降低對人類標註的依賴。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究團隊的發現令人振奮:在標準的下一個 Token 預測訓練中,強大的通用獎勵模型其實是潛藏於每一個大語言模型中的。團隊提出的 “內源性獎勵” 概念,意味着我們可以從這些模型中提取出一種有效的獎勵機制,而無需依賴外部的評估來源。這一理論不僅爲獎勵模型的構建提供了新思路,還展示瞭如何有效地利用模型自身的內源性獎勵進行微調,進而顯著提升模型的表現。
研究結果表明,使用內源性獎勵進行的微調能夠在誤差範圍內超越傳統基線模型,尤其在複雜任務中表現更爲突出。團隊進行了廣泛的實驗驗證,結果顯示這一新方法優於現有的獎勵模型,並且在各類測試中表現出色。
此研究的發佈,無疑爲未來的大語言模型開發和應用打開了新的大門。研究人員希望,這種利用內部獎勵機制的策略,能夠降低開發成本,提高效率,並推動人工智能的更廣泛應用。