近日,魔搭ModelScope社區宣佈發佈一項名爲UGMathBench的動態基準測試數據集,旨在全面評估語言模型在本科數學廣泛科目中的數學推理能力。這一數據集的問世,填補了當前在本科數學領域評估語言模型推理能力的空白,併爲研究者提供了更爲豐富和具有挑戰性的測試平臺。
隨着人工智能技術的飛速發展,自然語言模型在自動翻譯、智能客服、醫療、金融等多個領域展現出巨大潛力。然而,如何準確評估這些模型的性能,尤其是它們的推理能力和解決數學問題的能力,一直是研究者關注的焦點。近年來,雖然已有多個基準測試數據集用於評估語言模型的數學推理能力,但隨着模型的快速發展,這些數據集逐漸被攻克,其挑戰性逐漸降低。

在此背景下,UGMathBench數據集應運而生。該數據集從在線作業評分系統中精心收集、提取和整理了大量本科數學問題,涵蓋了基礎算術、單變量微積分、多變量微積分、微分方程、概率等16個科目,共包含5062個題目。與以往數據集不同的是,UGMathBench爲每個題目提供了3個不同的隨機版本,通過改變數學問題中的數字來產生動態變化的問題,從而更真實地評估語言模型的推理能力。
爲了確保評估的準確性和公正性,研究團隊還提出了三個關鍵指標:有效準確率(EAcc)、推理差距(Δ)和穩健性效率(RE)。有效準確率用於衡量語言模型在所有隨機版本上都能正確解答的題目比例;推理差距則反映了語言模型在解答不同隨機版本題目時的一致性;穩健性效率則進一步捕捉了語言模型在適應相同問題不同隨機版本時的能力。
基於UGMathBench數據集,研究團隊對23個先進的語言模型進行了全面評估,包括商業閉源模型和開源模型。評估結果顯示,即使是具有先進推理能力的語言模型,在UGMathBench數據集上也面臨巨大挑戰。這一結果不僅揭示了當前語言模型的侷限性,也爲未來開發具有更高推理能力的語言模型提供了重要參考。
UGMathBench數據集的發佈,不僅爲語言模型數學推理能力的評估提供了新的工具和方法,也爲研究者深入理解語言模型的內在推理邏輯提供了有力支持。目前,該數據集已對外開放下載,研究者和開發者可通過指定鏈接獲取數據集及相關技術報告,進一步探索語言模型在數學推理領域的潛力。
數據集下載地址:
https://www.modelscope.cn/datasets/xinxu02/UGMathBench
https://huggingface.co/datasets/UGMathBench/ugmathbench
技術報告地址:
https://arxiv.org/abs/2501.13766
