一個名爲OpenR的創新開源框架近日問世,旨在解決大型語言模型(LLMs)在複雜推理任務中的短板。這一由倫敦大學學院、利物浦大學、上海交通大學、香港科技大學(廣州)和西湖大學研究人員聯合開發的框架,通過結合測試時計算、強化學習和過程監督,爲提升LLMs的推理能力開闢了新途徑。
儘管LLMs在語言生成方面取得了顯著進展,但在處理數學、編程和科學問題等複雜任務時仍面臨挑戰。OpenR的出現正是爲了彌補這一差距,將LLMs的能力從簡單的文本生成拓展到更高級的推理領域。
OpenR的設計靈感部分來自OpenAI的 o1模型,但其目標更爲宏大:不僅要複製先進語言模型的推理能力,還要在此基礎上實現突破。作爲首個提供如此複雜推理支持的開源解決方案,OpenR聚焦於數據獲取、過程獎勵模型和高效推理方法,旨在加速推理專注型大型語言模型的發展。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
該框架的核心結構圍繞數據增強、策略學習和推理引導搭配多路徑探索展開。OpenR採用馬爾可夫決策過程(MDP)對推理任務進行建模,將複雜的推理過程分解爲一系列可評估和優化的步驟。這種方法不僅直接培養推理技能,還能在每個階段探索多個推理路徑,大大提高了推理過程的穩健性。
框架的另一個關鍵特性是過程獎勵模型(PRM),它爲中間推理步驟提供詳細反饋,使模型能夠更精確地調整決策,而不僅僅依賴最終結果的評判。這種細粒度的指導顯著提升了模型的學習效率。
在實際測試中,OpenR展現出令人矚目的性能。以MATH數據集爲基準,OpenR的推理準確率比傳統方法提高了約10%。研究還發現,"Best-of-N"和"Beam Search"等多路徑探索方法明顯優於簡單的多數投票技術,特別是在計算資源受限的情況下。
OpenR的強化學習技術,尤其是那些利用PRM的方法,在在線策略學習場景中表現出色,促進了LLMs推理能力的持續提升。這一成果表明,通過精心設計的學習策略,LLMs有潛力在複雜推理任務中取得突破性進展。
作爲一個開源平臺,OpenR爲研究人員和開發者提供了寶貴的資源,以共同推進語言模型的推理能力。它不僅爲當前的LLMs提供了升級路徑,還爲未來更智能、更具推理能力的AI系統鋪平了道路。
展望未來,OpenR團隊計劃進一步擴展框架的功能,涵蓋更廣泛的推理任務類型,並持續優化其推理流程。這一努力有望爲實現自我提升的推理型AI代理這一長遠目標做出重要貢獻。
項目地址:https://github.com/facebook/openr