オープンソース大規模モデル分野で新たな突破が起こりました。「問小白(ウェンシャオバイ)」は、その4世代目のオープンソースモデル「XBai o4」を正式にリリースしました。このモデルは複雑な推論能力において優れた性能を発揮しており、MediumモードではOpenAIのo3-miniをすでに上回り、一部のベンチマークテストではAnthropicのClaude Opusをも上回っています。

XBai o4は、画期的な「反省型生成フォーマット」を導入しました。Long-CoT強化学習とプロセススコアリング学習を組み合わせることで、深い推論と効率的な推論チェーンの選択が可能となり、同時に推論コストを大幅に削減しました。

QQ20250804-172822.png

技術的突破:独自の「反省型生成フォーマット」

XBai o4の核心的な革新は、「反省型生成フォーマット」(reflective generative form)です。このフォーマットは、Long-CoT強化学習プロセススコアリング学習(Process Reward Learning)を統合し、単一モデルで次の2つの重要なタスクを同時に実行できるようにしています:

  1. 深層的推論:人間のように複数ステップにわたる複雑な思考を行うことができます。

  2. 高品質な推論チェーンの選別:最適な推論パスを評価および選択できます。

注目すべき点は、XBai o4がプロセススコアリングモデル(PRMs)とポリシーモデルのメインネットワークを共有することで、プロセススコアリングの推論時間を99%削減したことです。この最適化により、モデルの実行効率が大幅に向上し、実際の応用に堅固な基盤を提供しています。

性能の優位性:多様なベンチマークで先駆け

XBai o4モデルには、異なる複雑度のタスクに対応する3つのモード(low、medium、high)が用意されています。複数の主要ベンチマークテストで、その高性能が十分に証明されています:

  • Mediumモードでは、XBai o4はOpenAIのo3-miniモデルを完全に上回っています

  • 一部のベンチマークテストでは、その性能はAnthropicのClaude Opusをも上回っています

  • このモデルは、AIME24、AIME25、LiveCodeBench v5、C-EVALなどの多数のテストで、優れた推論能力を示しています。

「問小白」はGitHubで関連するトレーニングおよび評価コードをオープンソース化しました。これはAI研究コミュニティにとって貴重なリソースを提供するだけでなく、オープンソースの大規模モデルが複雑な推論分野での競争力が急速に高まっていることを示しています。

アドレス:https://github.com/MetaStone-AI/XBai-o4