耐力驚人!Anthropic 旗艦模型 Claude Opus4.5創下“長任務”處理新紀錄

在追求大模型“高智商”的同時，AI 的持續執行能力正成爲衡量其進化水平的新維度。根據人工智能研究機構METR發佈的最新基準測試，Anthropic 旗下的頂級模型Claude Opus4.5在處理超長時間任務方面展現出了統治級實力。

測試結果顯示，Claude Opus4.5在維持50% 成功率的前提下，能夠持續處理長達約 4小時49分鐘 的複雜任務，這一表現刷新了行業歷史記錄。所謂的“時間分辨率”指標，揭示了模型在不同難度挑戰下的耐力邊界:在面對簡單任務（80% 成功率）時，它僅需27分鐘即可完成;而一旦進入高難度、高耗時的深水區，Opus4.5的優勢便被無限放大。

AIbase 注意到，雖然測試數據中出現了模型理論上可連續工作超過20小時的數值，但METR坦言這可能受限於樣本量較小而產生的誤差。儘管如此，這一突破依然標誌着 AI 正在從“短指令回覆者”向“長程項目執行者”轉型。

然而，也有專家對該測試的侷限性提出了質疑。目前 METR 僅涵蓋了14個樣本，且有觀點認爲這種基準測試可能被模型針對性地“刷分”。但不可否認的是，Claude Opus4.5的出現，確實爲需要高強度、長時程邏輯支撐的 AGI 任務提供了新的可能性。

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

摩根大通策略師戴維·萊博維茨指出，投資者對AI的態度正從盲目追捧轉向理性甄別。隨着AI成跨資產交易主題，華爾街必須學會分辨風險與回報。市場正細緻區分產業鏈各環節，判斷供給過剩與需求強勁的領域，告別單純狂熱。

耐力驚人!Anthropic 旗艦模型 Claude Opus4.5創下“長任務”處理新紀錄

相關推薦

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

三星殺回PC芯片戰場：自研AI專用芯片GAIA已送測聯想惠普， 2027 年量產

吸金 20 億美元！MiniMax完成 160 億港元新一輪融資，獲超 7 倍超額認購

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

​耐力驚人!Anthropic 旗艦模型 Claude Opus4.5創下“長任務”處理新紀錄

相關推薦

AI日報：GPT5.6系列模型發佈 Codex消失;騰訊擬接盤Manus成最大股東；MiniMax創始人宣佈零薪酬直至實現AGI

​Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

三星殺回PC芯片戰場：自研AI專用芯片GAIA已送測聯想惠普， 2027 年量產

吸金 20 億美元！MiniMax完成 160 億港元新一輪融資，獲超 7 倍超額認購

​摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"

耐力驚人!Anthropic 旗艦模型 Claude Opus4.5創下“長任務”處理新紀錄

Meta 發佈新旗艦模型 Muse Spark 1.1，升級多代理自動化功能

摩根大通潑冷水：AI投資熱潮降溫，市場不再"沾AI就買"