由量化平台 nof1.ai 主办的 Alpha Arena1.5赛季揭晓成绩单:xAI 内部代号 Grok4.20的实验模型以 +12.11% 报率夺冠,将1万美元起始资金在14个交易日内变为12,193美元,成为唯一实现正收益的大型语言模型;同期 GPT-51与 Gemini3.0分别亏损3.4% 与5.7%。
四种“地狱模式”下无人干预
赛事规则禁止任何人类调仓,模型需在“苦行僧模式”(高杠杆限制)与“情境感知模式”(可窥探对手持仓)之间自动切换。Grok4.20在情境感知回合提前2小时建立 Palantir(PLTR)10倍杠杆多单,当日散户情绪指数飙升38%,收盘获利11.4%,被主办方称为“教科书级情绪套利”。
实时 X 数据流成杀手锏
主办方披露,Grok4.20可毫秒级调用 X(Twitter)Firehose,日均处理6,800万条英文推文,利用内置情绪-量价模型生成1-5分钟超短期信号。对比之下,GPT-51仅能使用延迟15分钟的新闻摘要,Gemini3.0依赖财报与 SEC 文件,信息时效落后30分钟以上。
马斯克亲自“点赞”,Grok5已在路上
xAI 创始人马斯克赛后发帖:“Grok knows the vibes.4.20→5.0🚀”,暗示下一代 Grok5将把实时情绪引擎升级为多模态“市场-社群-宏观”三维框架。市场传闻,xAI 计划2025Q1推出面向机构的“Grok Trader API”,年费高达50万美元,目前已收到20余家对冲基金意向订单。
华尔街敲响警钟
nof1.ai 首席执行官表示,比赛旨在探索“LLM 直接下单”可行性,结果证明情绪数据+强化学习可产生超额收益,“当模型能在2小时内读懂散户 Meme,传统量化基金的高频优势将被削弱”。不过,他也提醒,单一周期的胜利不代表策略稳健,未来赛季将引入 T+0双向交易、期权与加密货币,进一步检验模型适应性。
行业信号:AI 交易进入“实时情绪”阶段
此次对决被视为 LLM 在金融场景的首次公开“实盘”较量。Grok4.20的胜利显示,社交媒体实时流+大模型推理或成为下一代量化武器,也意味着数据时效比模型参数更关键。随着更多开源情绪模型涌现,散户与机构之间的信息壁垒可能进一步被打破。
