在全球人工智能競爭日益激烈的背景下,上海交通大學與深勢科技團隊聯手,成功在被稱爲 “人類最後的考試”(HLE)中取得了32.1分的驚人成績,首次突破30分大關。這一測試集以其超高難度而聞名,曾經沒有模型得分能超過10分,甚至在最近,最高得分也僅有26.9分,由 Kimi-Research 和 Gemini Deep Research 並列創造。
這項研究推出了名爲 X-Master 的工具增強型推理智能體,以及多智能體工作流系統 X-Masters。這套方案不僅在技術上表現出色,團隊還將其開源,進一步推動 AI 領域的合作與發展。
X-Master 的核心理念在於模擬人類研究者解決問題的動態過程,能夠在內部推理與外部工具之間無縫切換。當遇到無法解決的問題時,X-Master 會將行動計劃編寫成代碼,通過各種工具(如 NumPy 和 SciPy)執行這些代碼,並將結果整合回智能體的知識體系中。這一過程形成了一個高效的反饋循環,使得智能體不斷優化推理過程。
X-Masters 的設計則更爲複雜,採用分散 - 堆疊式的智能體工作流,能夠提升推理的廣度和深度。在分散階段,多個求解器並行工作,生成不同的解決方案,同時由批評者智能體對方案進行評估與改進。接下來,重寫器智能體將所有輸出彙總成更優方案,最終由選擇器智能體選出最佳答案。
在這項測試中,X-Masters 在生物學 / 醫學類別的表現也格外突出,超越了現有的智能體系統,顯示出其在複雜問題上的強大能力。
“人類最後的考試” 由 AI 安全中心與 Scale AI 於今年初發起,旨在評估 AI 系統的智能水平,題目來自500多家機構的1000多名學者,難度相當高。