開源大模型領域迎來新突破。“問小白”正式發佈其第四代開源模型 XBai o4,該模型在複雜推理能力上表現卓越,其 Medium 模式已全面超越 OpenAI o3-mini,並在部分基準測試中優於 Anthropic Claude Opus。

XBai o4引入了創新的“反思型生成範式”,通過結合 Long-CoT 強化學習和過程評分學習,實現了深度推理和高效推理鏈路篩選,同時顯著降低了推理成本。

QQ20250804-172822.png

技術突破:獨創“反思型生成範式”

XBai o4的核心創新在於其獨有的“反思型生成範式”(reflective generative form)。這一範式將 Long-CoT 強化學習過程評分學習(Process Reward Learning)相結合,使得單個模型能夠同時完成兩個關鍵任務:

  1. 深度推理: 像人類一樣進行多步驟的複雜思考。

  2. 高質量推理鏈路篩選: 能夠評估和選擇最優的推理路徑。

更值得關注的是,XBai o4通過共享過程評分模型(PRMs)和策略模型的主幹網絡,將 過程評分的推理耗時降低了99%。這一優化大幅提升了模型的運行效率,爲實際應用提供了堅實基礎。

性能卓越:多基準測試領先

XBai o4模型提供了三種模式(low、medium、high),以適應不同複雜度的任務需求。在多項關鍵基準測試中,其強大性能得到了充分驗證:

  • 在 Medium 模式下,XBai o4全面超越了 OpenAI 的 o3-mini 模型

  • 在部分基準測試中,其表現甚至優於 Anthropic 的 Claude Opus

  • 該模型在 AIME24、AIME25、LiveCodeBench v5、C-EVAL 等多個測試中均展現出卓越的推理能力。

“問小白”已在 GitHub 上開源了相關的訓練和評估代碼,這不僅爲 AI 研究社區提供了寶貴的資源,也預示着開源大模型在複雜推理領域的競爭力正在迅速增強。

地址:https://github.com/MetaStone-AI/XBai-o4