在人工智能領域,大語言模型(LLM)正在不斷進化,最近,卡內基梅隆大學(CMU)與 HuggingFace 的研究者們共同提出了一種名爲 “元強化微調”(Meta Reinforcement Fine-Tuning,簡稱 MRT)的新方法。這一方法旨在優化大語言模型在測試時的計算效率,尤其是在解決複雜推理問題時,表現尤爲突出。

研究表明,現有的大語言模型在推理過程中常常消耗過多的計算資源,而 MRT 的目標是讓模型在給定的計算預算內,實現更高效的答案發現。該方法將大語言模型的輸出分割成多個片段,以便在探索與利用之間取得平衡。通過對訓練數據的細緻學習,MRT 能夠使模型在面對未知難題時,既能利用已知信息,又能夠探索新的解題策略。

image.png

在研究中,CMU 團隊的實驗顯示,使用 MRT 微調後,模型在多個推理基準測試上取得了顯著提升。在與傳統結果獎勵強化學習(GRPO)的對比中,MRT 的準確率是其2到3倍,且在 token 使用效率上提升了1.5倍。這意味着,MRT 不僅能提高模型的推理能力,還能降低計算資源的消耗,從而在實際應用中更具優勢。

此外,研究者們還提出瞭如何有效評估現有推理模型的有效性,爲未來的研究奠定了基礎。這一成果不僅展示了 MRT 的潛力,也爲大語言模型在更多複雜應用場景中的應用指明瞭方向。

通過這樣的創新,CMU 與 HuggingFace 的研究團隊無疑在推動 AI 技術的前沿,賦予機器更強大的推理能力,爲實現更智能的應用打下了堅實的基礎。

項目地址:https://cohenqu.github.io/mrt.github.io/