人工知能の急速な発展に伴い、特に大規模推論モデル分野において、研究者たちはこれらのモデルにさらに強力なエージェント能力を付与しようとしています。この能力は、単にテキスト処理に限定されるものではなく、画像理解や操作へと拡張されています。最近、上海交通大学、上海人工知能実験室、香港中文大学、武漢大学の研究チームは、新たな手法である「Visual-ARFT(ビジュアル・エージェント強化微調整)」を発表しました。これは、視覚言語モデルのマルチモーダルエージェント能力を向上させ、複雑なタスクをより柔軟に遂行できるようにするためのものです。

Visual-ARFTの核となるのは、「ツールエージェント」の能力をモデルに与えることです。これにより、モデルは単に画像を分析し理解するだけでなく、外部ツールを呼び出して検索やコードの作成を行うことができます。このような能力により、モデルは複雑なマルチモーダル問題に直面しても、タスクを自主的に分解し、ステップを計画し、最終的にタスクを完了することができます。例えば、画像情報を分析した後、必要な情報を検索エンジンで探したり、Pythonコードを生成して画像を処理し、視覚質問応答を完了することが可能です。

image.png

Visual-ARFTの有効性を評価するために、研究チームは新しい評価基準MAT-Bench(マルチモーダルエージェントツール基準)を開発しました。この基準には、複数の複雑なマルチジャンプ視覚質問応答タスクが含まれており、モデルのツール呼び出しとマルチモーダル推論能力を正確に評価できます。テスト結果では、Visual-ARFT法を使用したモデルは、多くのサブタスクで優れたパフォーマンスを示し、GPT-4oなどの先進的なモデルを上回り、大きな可能性を示しています。

image.png

注目すべき点として、Visual-ARFTは簡潔かつ効率的な報酬メカニズムに基づく訓練戦略を採用しており、モデルがどのようにツールを使用するかを自主的に探求し、全体的な推論プロセスを形成させることが可能です。研究チームは少ないデータを使用しながらも、モデルのマルチモーダルエージェント能力を向上させるのに成功しました。

今後、Visual-ARFTはエージェント能力の発展に新たな道を切り開くだけでなく、画像処理やスマート検索など、多くの分野で深遠な影響を与える可能性があります。技術のさらなる進展に伴い、私たちは複雑なシナリオにおけるより多くのエージェントのパフォーマンスを見ることを期待しており、それが人工知能の境界をさらに広げることにつながると確信しています。

プロジェクトのアドレス:https://github.com/Liuziyu77/Visual-RFT/tree/main/Visual-ARFT