國內團隊創造歷史！“人類最後的考試” 首次得分突破30分，AI競爭再升級！

在全球人工智能競爭日益激烈的背景下，上海交通大學與深勢科技團隊聯手，成功在被稱爲 “人類最後的考試”（HLE）中取得了32.1分的驚人成績，首次突破30分大關。這一測試集以其超高難度而聞名，曾經沒有模型得分能超過10分，甚至在最近，最高得分也僅有26.9分，由 Kimi-Research 和 Gemini Deep Research 並列創造。

這項研究推出了名爲 X-Master 的工具增強型推理智能體，以及多智能體工作流系統 X-Masters。這套方案不僅在技術上表現出色，團隊還將其開源，進一步推動 AI 領域的合作與發展。

X-Master 的核心理念在於模擬人類研究者解決問題的動態過程，能夠在內部推理與外部工具之間無縫切換。當遇到無法解決的問題時，X-Master 會將行動計劃編寫成代碼，通過各種工具（如 NumPy 和 SciPy）執行這些代碼，並將結果整合回智能體的知識體系中。這一過程形成了一個高效的反饋循環，使得智能體不斷優化推理過程。

X-Masters 的設計則更爲複雜，採用分散 - 堆疊式的智能體工作流，能夠提升推理的廣度和深度。在分散階段，多個求解器並行工作，生成不同的解決方案，同時由批評者智能體對方案進行評估與改進。接下來，重寫器智能體將所有輸出彙總成更優方案，最終由選擇器智能體選出最佳答案。

在這項測試中，X-Masters 在生物學 / 醫學類別的表現也格外突出，超越了現有的智能體系統，顯示出其在複雜問題上的強大能力。

“人類最後的考試” 由 AI 安全中心與 Scale AI 於今年初發起，旨在評估 AI 系統的智能水平，題目來自500多家機構的1000多名學者，難度相當高。

利用 AI 模擬用戶行爲，Blok 助力開發者提升應用體驗

Blok是一家專注AI測試工具的創業公司，其創新技術能模擬用戶角色進行應用測試，幫助開發者提前預測用戶行爲。創始團隊由經驗豐富的創業者組成，已獲750萬美元融資。相比傳統測試工具，Blok更具前瞻性，能在編碼前提供改進建議。目前產品處於內測階段，主要服務金融、醫療等對測試精度要求高的行業，預計今年將實現數百萬美元收入。

微軟全新 Phi-4-mini 版發佈：推理效率提升 10 倍，輕鬆適配筆記本

微軟開源Phi-4-mini-flash-reasoning模型，專爲邊緣設備設計，推理效率提升10倍。採用創新SambaY架構，實現高效記憶共享，在長文本生成和數學推理方面表現突出。基準測試顯示其長上下文理解能力優異，Phonebook任務準確率達78.13%。該模型適合教育科研領域，可在單個GPU上運行。

Meta 以超 2 億美金高薪挖走蘋果 AI 模型負責人

蘋果AI團隊負責人Ruoming Pang跳槽至Meta超級智能實驗室，Meta開出超2億美元薪酬方案（含股票、獎金），遠超蘋果CEO庫克薪資。蘋果未匹配報價，已任命新負責人並調整團隊架構。此次高薪挖角或引發蘋果AI團隊離職潮，凸顯Meta在AI人才爭奪戰的激進策略。

xAI 震撼發佈Grok4，超強推理+代碼神器Grok4 Code

xAI發佈新一代AI模型Grok4，性能全面升級挑戰行業頂尖水平。該模型在數學推理、代碼生成等核心能力上表現突出，支持13萬token長文本處理。xAI採取雙模型戰略，同時推出面向開發者的Grok4 Code版本。Grok4延續實時數據優勢但引發準確性爭議，定位"追求真相"AI引發兩極評價。依託強大計算資源，xAI計劃未來擴展多模態功能。目前Grok4已通過API開放，普通用戶可通過X平臺訂閱體驗。

上海累計82款大模型已經通過備案

2025世界人工智能大會透露，上海已備案82款大模型，重點推進製造、金融等領域的AI示範應用。徐匯"模速空間"和浦東"模力社區"成爲產業載體，分別聚集500家和200家AI企業。上海通過國家及市級人工智能基金，構建從種子期到成熟期的全週期融資支持體系，重點投向算力、語料等關鍵領域。

國內團隊創造歷史！“人類最後的考試” 首次得分突破30分，AI競爭再升級！

相關推薦

利用 AI 模擬用戶行爲，Blok 助力開發者提升應用體驗

​微軟全新 Phi-4-mini 版發佈：推理效率提升 10 倍，輕鬆適配筆記本

​Meta 以超 2 億美金高薪挖走蘋果 AI 模型負責人

xAI 震撼發佈Grok4，超強推理+代碼神器Grok4 Code

上海累計82款大模型已經通過備案

微軟全新 Phi-4-mini 版發佈：推理效率提升 10 倍，輕鬆適配筆記本

Meta 以超 2 億美金高薪挖走蘋果 AI 模型負責人