金融市場の研究に専念する人工知能ラボ nof1 は、大規模モデルによるトレード実験プロジェクト「Alpha Arena」を開始したと発表しました。このプロジェクトでは、異なる主要な大規模モデルが現実的な金融環境でのトレード意思決定およびリスク管理能力を検証します。今回のテストは非中央集権型取引プラットフォームである Hyperliquid 上で行われ、すべてのモデルは同じプロンプトと統一されたデータ入力を使用して動作し、それぞれが1万ドルの本物の資金を用いて独立してトレードを行います。

株価トレンド図 (2)

テストに参加したのは6つのトップAIモデルで、GPT-5、Gemini2.5Pro、Grok-4、Claude Sonet4.5、DeepSeek V3.1、Qwen3Maxです。テスト期間終了時に、最も優れた成績を収めたのは DeepSeek V3.1 と Grok-4 で、両者の収益率は14%を超え、並んで第2位となりました。一方で、Gemini2.5Pro の成績は芳しくなく、4257%の損失を記録し、今回のテストで最も予想外の結果となりました。

nof1は、Alpha Arena の目的は単にモデルの優劣を比較することではなく、高変動市場における戦略の安定性とリスクへの対応メカニズムを検証することであり、将来のAIに基づく自律的な量化取引において技術的・方法論的な参考となることを目指していると述べています。この実験の導入は、大規模モデルがテキスト理解や推論タスクから、リアルな金融意思決定と資産管理のシナリオへ迅速に拡張していることを示しています。