微軟近日宣佈了其新的 rStar-Math 技術,這一創新的推理方法可以應用於小型語言模型(SLMs),顯著提升它們在數學問題上的表現,甚至在某些情況下超越 OpenAI 的 o1-preview 模型。這一技術目前仍處於研究階段,相關研究論文已發佈在 arXiv.org 上,由微軟、北京大學和清華大學的八位作者共同完成。
在測試中,rStar-Math 技術被應用於多個小型開源模型,包括微軟的 Phi-3迷你模型、阿里巴巴的 Qwen-1.5B(15億參數模型)和 Qwen-7B(70億參數模型)。測試結果顯示,所有參與的模型性能都有所提升,其中在 MATH 基準測試中,rStar-Math 甚至超越了 OpenAI 先前最先進的模型。
研究團隊計劃在 Github 上開放相關代碼和數據,儘管目前仍在內部審覈中,尚未公開。社區對此技術表示了極大的興趣,許多成員稱讚其與蒙特卡羅樹搜索(MCTS)結合的逐步推理方法,認爲這一創新在幾何證明和符號推理等領域有着廣泛的應用前景。
rStar-Math 的核心在於利用蒙特卡羅樹搜索,這種方法模擬人類的 “深度思考”,通過逐步細化數學問題的解決方案來幫助小型模型自我演進。研究人員不僅簡單地應用了 MCTS,還要求模型在輸出過程中同時給出自然語言的推理步驟以及 Python 代碼。這樣的要求促進了模型的有效訓練。
在經過四輪自我演進後,rStar-Math 在多個基準測試中取得了顯著成就。在 MATH 基準測試中,Qwen2.5-Math-7B 模型的準確率從58.8% 躍升至90.0%,超越了 OpenAI 的 o1-preview。而在美國數學邀請賽(AIME)中,該模型解決了53.3% 的問題,表現位於高中競爭者的前20%。
近年來,人工智能創新主要依賴於模型參數的不斷增加,然而,隨之而來的高昂成本讓人們開始質疑這種擴展的可持續性。微軟通過 rStar-Math 展示了小型模型的潛力,強調了高效能的方向。這一技術的發佈表明,專門的小型模型可以作爲大型系統的有力替代方案,爲中型組織和學術研究者提供前沿的能力,而無需承擔龐大的財務和環境負擔。
論文入口:https://arxiv.org/pdf/2501.04519
劃重點:
🌟 微軟推出 rStar-Math 技術,提升小型模型在數學問題上的表現。
📊 該技術已在多種開源模型上測試,部分模型性能超越 OpenAI 的 o1-preview。
🔍 研究計劃將在 Github 上發佈代碼,吸引社區關注,展示小型模型的巨大潛力。