專注於金融市場研究的人工智能實驗室 nof1 宣佈啓動大型模型交易實測項目 Alpha Arena,以檢驗不同主流大模型在真實金融環境中的交易決策與風險控制能力。此次測試在去中心化交易平臺 Hyperliquid 上進行,所有模型均以 相同提示與統一數據輸入 運行,每個模型獲得 1萬美元真實資金 進行獨立交易。

參與測試的共有六款領先 AI 模型,分別爲 GPT-5、Gemini2.5Pro、Grok-4、Claude Sonet4.5、DeepSeek V3.1 與 Qwen3Max。在測試周期結束時,結果顯示錶現最爲突出的是 DeepSeek V3.1與 Grok-4,兩者收益率均超過 14%,並列第二名;而 Gemini2.5Pro 的表現不佳,出現高達 4257% 的虧損,成爲本輪測試中最意外的結果。
nof1表示,Alpha Arena 的目標並非單純比較模型優劣,而是驗證不同架構在高波動市場中的策略穩定性與風險響應機制,爲未來基於 AI 的自主量化交易提供技術與方法論參考。這項實驗的推出,也反映出大模型正從文本理解與推理任務,快速向 真實金融決策與資產管理場景 拓展。
