在追求大模型“高智商”的同時,AI 的持續執行能力正成爲衡量其進化水平的新維度。根據人工智能研究機構METR發佈的最新基準測試,Anthropic 旗下的頂級模型Claude Opus4.5在處理超長時間任務方面展現出了統治級實力。

image.png

測試結果顯示,Claude Opus4.5在維持50% 成功率的前提下,能夠持續處理長達約 4小時49分鐘 的複雜任務,這一表現刷新了行業歷史記錄。所謂的“時間分辨率”指標,揭示了模型在不同難度挑戰下的耐力邊界:在面對簡單任務(80% 成功率)時,它僅需27分鐘即可完成;而一旦進入高難度、高耗時的深水區,Opus4.5的優勢便被無限放大。

AIbase 注意到,雖然測試數據中出現了模型理論上可連續工作超過20小時的數值,但METR坦言這可能受限於樣本量較小而產生的誤差。儘管如此,這一突破依然標誌着 AI 正在從“短指令回覆者”向“長程項目執行者”轉型。

然而,也有專家對該測試的侷限性提出了質疑。目前 METR 僅涵蓋了14個樣本,且有觀點認爲這種基準測試可能被模型針對性地“刷分”。但不可否認的是,Claude Opus4.5的出現,確實爲需要高強度、長時程邏輯支撐的 AGI 任務提供了新的可能性。