マルチモーダル大規模モデル(MLLM)は、複雑な問題を解決する上で次第に大きな可能性を示しています。しかし、これらのモデルは複雑な推論を処理する際に「単純」であり、反省能力が欠如しているため、何度も試行が必要な課題に直面したときに後戻りができません。この問題を解決するために、上海交通大学と上海人工知能実験室の研究チームは、「MM-HELIX」という革新プロジェクトを導入しました。このプロジェクトは、AIが人間のように長期間の反省的推論を行うことを目的としています。
MM-HELIXは単なるプロジェクトではなく、包括的なエコシステムです。研究チームはまず、「究極のテスト場」と呼ばれるMM-HELIXベンチマークテストを構築し、マルチモーダル大規模モデルの反省的推論能力を評価しました。このベンチマークテストには42種類の非常に複雑なタスクが含まれており、アルゴリズム、グラフ理論、パズル、および戦略ゲームの分野をカバーしています。テスト結果によると、現在最も優れたモデルでも正確率は低く、特にマルチモーダル入力ではさらに悪化しています。この結果は、AIの反省能力を向上させる重要性を強調しています。

マルチモーダル大規模モデルがより効果的に反省を学ぶために、研究チームは「ステップヒューリスティックレスポンス生成(SERG)」プロセスを通じてモデルに反省と振り返りを教えることを目的とした、MM-HELIX-100Kというデータセットを構築しました。このプロセスにより、問題解決の時間が大幅に短縮され、不要な冗長な思考も効果的に削減されました。

また、チームは「自己適応混合最適化アルゴリズム(AHPO)」という新しい戦略を提案しました。このアルゴリズムは知的チューターとして機能し、モデルが学習中に専門家の指導に依存するのではなく、自主的な探求に向かうように支援します。この動的な指導メカニズムにより、モデルは正確度が向上するだけでなく、独立した思考能力も養うことができます。
この一連の革新により、MM-HELIXを搭載したQwen2.5-VL-7Bモデルはベンチマークテストで正確率が18.6%向上しました。この進歩は、従来のモデルの限界を突破し、反省能力の強大な汎用性を示しており、このプロジェクトがAI発展にとって重大な意味を持つことを証明しています。
