近日,阿里雲重磅推出了Qwen2-Math系列大型語言模型,這一專注於數學領域的AI新秀一經亮相就引發了業界的廣泛關注。
作爲Qwen2系列的最新成員,Qwen2-Math和Qwen2-Math-Instruct-1.5B/7B/72B模型在數學解題能力上展現出了令人矚目的實力。據悉,這一系列模型不僅在多項數學基準測試中超越了現有的開源模型,更是在某些方面勝過了包括GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和Llama-3.1-405B在內的知名閉源模型,堪稱AI數學界的"黑馬"。
Qwen2-Math的成功並非偶然。阿里雲團隊在過去一年裏傾注了大量心血,致力於提升大型語言模型在算術和數學問題上的推理能力。這個系列模型的基礎是Qwen2-1.5B/7B/72B,研發團隊在此基礎上,利用精心設計的數學專業語料庫進行了深度預訓練。這個獨特的語料庫涵蓋了大規模高質量的數學網絡文本、專業書籍、代碼實例,以及海量的考試題目,甚至包含了由Qwen2自主生成的數學預訓練數據。
特別值得一提的是Qwen2-Math-Instruct模型。這個基於Qwen2-Math-72B訓練的數學專業獎勵模型採用了創新的訓練方法。研發團隊巧妙地結合了密集的獎勵信號和模型回答正確與否的二元信號,將這個組合信號作爲監督信號,通過拒絕採樣構建SFT(Supervised Fine-Tuning)數據,並在SFT之後的強化學習中應用了組相對策略優化(GRPO)技術。這種獨特的訓練方法極大地提升了模型的數學解題能力。
在實際應用中,Qwen2-Math-Instruct展現出了令人驚歎的表現。無論是在2024年的AIME(美國邀請賽數學考試)還是2023年的AMC(美國數學競賽),這個模型都在各種設置下表現出色,包括貪婪搜索(Greedy)、多數投票、風險最小化等策略。
更令人興奮的是,Qwen2-Math在解決一些國際數學奧林匹克(IMO)級別的難題時也展現出了不俗的實力。通過對一系列測試案例的分析,研究人員發現Qwen2-Math不僅能夠輕鬆應對簡單的數學競賽問題,在面對複雜難題時也能給出令人信服的解答思路。
然而,阿里雲團隊並未就此止步。他們透露,目前的Qwen2-Math系列僅支持英語,但他們已經在積極開發支持英語和中文的雙語模型,並計劃在不久的將來推出多語言版本。此外,團隊還在持續優化模型,以進一步提升其解決更加複雜和具有挑戰性的數學問題的能力。
Qwen2-Math的橫空出世,無疑爲AI在數學領域的應用開闢了新的可能性。它不僅將爲教育行業帶來革命性的變化,幫助學生更好地理解和掌握數學知識,還可能在科研、工程等需要複雜數學計算的領域發揮重要作用。
項目頁:https://top.aibase.com/tool/qwen2-math
模型下載:https://huggingface.co/Qwen