近日,中國信息通信研究院(信通院)正式推出了 “方升” 基準測試體系3.0,標誌着國內人工智能(AI)評測的又一重大進步。這個全新的版本在前期基礎上進行了全面升級,不僅新增了模型基礎屬性測試,還系統性地評估了模型的參數規模和推理效率等底層特徵。此外,該體系還前瞻性地佈局了未來的高級智能測試,聚焦全模態理解、長期記憶和自主學習等十項高級能力,爲工業製造、基礎科學和金融等重點行業提供了更深入的場景化評測。
爲了更好地實施 “方升”3.0,信通院在多個方面加強了評測基礎設施的建設。首先,他們計劃擴容高質量測試數據資源,將新增300萬條數據,以滿足多語言、多任務和多場景的模型評測需求。其次,信通院將系統性研究和應用先進測試方法,集中解決大模型評測中的關鍵技術難題,比如高質量測試數據合成與質量評估。此外,信通院還將構建新一代智能評測基座,新增多智能體交互與環境感知的仿真測試環境,以滿足複雜場景下的智能體協同交互和動態環境適應能力的評估需求。

從2024年開始,信通院將每兩個月開展一次大模型基準測試活動。最新的一輪測試中,評估了141個大模型和7個智能體,涵蓋了基礎能力、推理能力、代碼應用能力和多模態理解能力。測試結果顯示,OpenAI 的 GPT-5在綜合能力上繼續領先,而國內的阿里巴巴 Qwen3-Max-Preview 和月之暗面的 Kimi K2表現不俗。在多模態模型的評測中,圖像理解能力也取得了突破,但在複雜邏輯推理任務上還有待提升。
此外,代碼應用能力的測試結果也顯示,雖然在簡單函數級任務中表現出色,但在真實項目開發中仍顯短板。這也意味着國內外的技術競爭依然在加劇,智能體在多模態理解和複雜信息處理方面仍需努力。
信通院未來將繼續強化大模型評測技術研發,提升評測的公信力與權威性,以支撐人工智能的前沿創新和新型工業化發展。
