最近、ビットテックと香港大学は、新しいオープンソースの視覚推論モデル「Mini-o3」を共同でリリースしました。これは、複数ラウンドの視覚推論技術における新たな重要な進展を示しています。これまでの視覚言語モデル(VLM)が1〜2ラウンドの会話に限られていたのに対し、Mini-o3はトレーニング時に6ラウンドの会話を制限していますが、テストでは数十ラウンドにまで推論ラウンドを拡張でき、視覚問題の処理能力を大幅に向上させています。

Mini-o3の強みは、高難度の視覚検索タスクにおいて深い推論を実現し、現在の技術の頂点に達している点です。この成果は、以下の3つのコア設計要素に起因しています。第一に、研究チームは「VisualProbe」という視覚検索の難問を探索的推論のために設計された視覚データセットを構築しました。第二に、彼らはイテレーティブなデータ収集プロセスを開発し、モデルが深さ優先検索や試行錯誤的な探索、目的維持などの推論戦略を学べるようにしました。第三に、研究チームは超ラウンドマスキング戦略を提案し、最大インタラクションラウンドに達した回答に対して罰を与えないようにすることで、訓練効率とテストの拡張性を効果的に向上させました。
Mini-o3のトレーニングは2段階で行われます。第一段階はコールドスタートの監督微調整(SFT)で、複数ラウンドのツール使用能力を活性化することを目指しています。研究チームはコンテキスト学習を通じて大量の高品質な推論軌跡を収集しました。第二段階は強化学習(RL)であり、この段階では画像ピクセルの制限を下げ、超ラウンドマスキング機構を導入することで、モデルのインタラクションラウンドと推論能力を大幅に向上させました。

Mini-o3は、いくつかの視覚検索ベンチマークで優れた性能を示し、既存のオープンソースモデルを上回っています。研究者は比較実験を通じて、コールドスタートのSFTおよび超ラウンドマスキング技術が推論能力の向上に不可欠であることを確認しました。また、適切な最大ピクセル予算の設定はモデル性能の最適化において非常に重要です。

Mini-o3のリリースは、技術的に新たな高みに到達しただけでなく、今後の複数ラウンドの視覚推論の発展にも新たな方向性を提示しています。このモデルの成功は、大量のトレーニングリソースを消費することなく、深い思考と複雑な推論を実現することがより可能になったことを示しています。
論文のURL:https://arxiv.org/pdf/2509.07969
