バイトダンスのDoubao大規模言語モデルチームは、視覚言語モデルに基づいたオープンソースのマルチモーダルエージェントであるUI-TARS-1.5のオープンソース化を発表しました。これは、仮想世界で様々なタスクを効率的に実行できるモデルです。7つの代表的なGUI(グラフィカルユーザーインターフェース)評価基準で最先端(SOTA)の性能を達成し、ゲームにおける長時間推論能力とオープンワールドでのインタラクション能力を初めて実証しました。このオープンソースプロジェクトは、マルチモーダルエージェント技術がGUI操作とゲーム推論の分野で重要な進歩を遂げたことを示しています。

UI-TARS-1.5は、バイトダンスが以前提案したネイティブエージェントソリューションであるUI-TARSをベースに、強化学習によってモデルの高次推論能力をさらに強化し、「行動」の前に「思考」を行うことができるようにしました。「思考してから行動する」というメカニズムにより、未知の環境やタスクに直面した場合の汎化能力が大幅に向上し、UI-TARS-1.5は複数の主要な評価基準で、以前の最先端モデルよりも優れた性能を達成しました。例えば、GUIグラウンディング能力評価において、UI-TARS-1.5は高難度のScreenSpotProで61.6%の精度を達成し、Claudeの27.7%、CUAの23.4%、そして以前の最先端モデルの43.6%を上回りました。

微信截图_20250418080056.png

ゲームタスクにおいても、UI-TARS-1.5は優れた性能を示しました。チームは、poki.comにある14種類の異なるスタイルのミニゲームを選び、各ゲームで最大1000ステップのインタラクションを許可しました。UI-TARS-1.5はこれらのゲームタスクで良好なパフォーマンスを示しただけでなく、推論時間の拡張性も安定していました。さらに、チームはオープンワールド環境であるMinecraft(マインクラフト)でUI-TARS-1.5の能力を評価しました。MineRL標準評価タスクにおいて、「特定のブロックを見つけて破壊する」と「敵対的な生物を探して倒す」という2つのタスクで最高成功率を達成し、「思考モジュール」を有効にした場合、その性能はさらに向上しました。これは「思考してから行動する」メカニズムの有効性を証明しています。

UI-TARS-1.5の成功は、視覚認識の強化、System2推論メカニズム、統一された行動モデリング、そして自己進化可能なトレーニングパラダイムという4つの側面における技術的な探求によるものです。これらの技術により、UI-TARS-1.5は正確なGUI操作を実現し、複雑なタスクでも優れた性能を発揮します。例えば、ユーザーが「フォントサイズを大きくする」という指示を出した場合、一般的なモデルは理解が曖昧で操作ミスを犯しやすいですが、UI-TARSは「設定」のエントリーを迅速に特定し、既存の知識に基づいて正しい経路を推論し、正確に操作を完了することができます。

UI-TARSチームは、エージェントの進化はフレームワークからモデルへの転換だと考えています。UI-TARSは「ネイティブエージェントモデル(Agent Model)」であり、完全な知覚・推論・記憶・行動の統合構造を備え、トレーニング中に知識と経験を蓄積し、より強力な汎化能力と適応能力を備えています。この「データから出発する」閉ループパラダイムにより、UI-TARSは人工的なルールやプロンプトエンジニアリングに依存せず、インタラクションステップを繰り返し設定する必要もなく、開発の敷居を大幅に下げています。

今後、UI-TARSチームは強化学習を通じて、UI-TARSの複雑なタスクにおける性能を向上させ、人間のレベルに近づけることを目指すとともに、UI-TARSのユーザーエクスペリエンスを継続的に最適化し、操作の円滑さとインタラクション能力をさらに向上させる予定です。UI-TARS-1.5のオープンソース化は、開発者と研究者にとって強力なツールを提供し、マルチモーダルエージェント技術の発展を促進します。オープンソースのアドレスは以下のとおりです。

- GitHub: https://github.com/bytedance/UI-TARS

- Website: https://seed-tars.com/

- Arxiv: https://arxiv.org/abs/2501.12326