近日,字節跳動豆包大模型團隊聯合M-A-P開源社區發佈SuperGPQA,一個覆蓋285個研究生級學科、包含26,529道專業問題的知識推理基準測試。

QQ20250304-140137.pngQQ20250304-140137.png

該數據集不僅涵蓋數學、物理等主流學科,還首次將輕工業、農業、服務科學等長尾學科納入評估體系,填補了現有基準測試在長尾知識領域的空白。SuperGPQA已被用於揭示開源與閉源模型的性能差距,成爲AI發展的重要工具。

傳統基準如MMLU和GPQA學科覆蓋不足50個,長尾學科佔比不到5%,且因數據來源單一(如維基百科)和衆包標註不可靠,難以衡量模型在複雜場景中的推理能力。SuperGPQA通過專家-LLM協同機制,從權威來源篩選問題,歷時半年構建而成。其題目平均提供9.67個選項,42.33%需數學計算或形式推理,兼具廣度與深度。實驗顯示,最優模型DeepSeek-R1準確率僅61.82%,表明當前大語言模型在多樣知識領域仍有提升空間。

QQ20250304-140147.png

SuperGPQA採用三階段流程提升質量:專家篩選原始問題、規範化轉錄、多層質量檢驗(規則過濾、LLM檢測、專家複審)。評測結果表明,指令微調顯著提升性能,如DeepSeek-V3得分超基礎版,但開源模型在困難題目上仍落後閉源方案。

論文鏈接:https://arxiv.org/pdf/2502.14739

數據鏈接:https://huggingface.co/datasets/m-a-p/SuperGPQA

代碼鏈接:https://github.com/SuperGPQA/SuperGPQA