最近、上海交通大学のIPADSラボチームは、モバイル用の新しいAIエージェントツールチェーン「MobiAgent」をリリースし、個人向けのスマートアシスタント開発の障壁を打ち破りました。このツールチェーンは、実際の環境での性能がGPT-5や他のトップクラスの閉鎖型モデルを上回ると主張しています。

MobiAgentの登場により、誰もが自分だけのAIアシスタントを育成する機会を得ることができます。このツールチェーンは、操作データの収集からモデルの訓練、そしてモデルをスマホにデプロイするまでの完全なプロセスをユーザーがゼロから構築できるようにサポートします。MobiAgentのオープンソース性により、ユーザーはデータを自ら取得し、モデルを訓練し、自分の端末でスマートアシスタントを実装することが可能です。

image.png

実際にMobiAgentの能力を検証するために、研究チームは国内の20アプリケーションでテストを行いました。その結果、7B規模のMobiAgentモデルは、多くの有名な閉鎖型大規模モデルを上回り、同じ規模のオープンソースGUIエージェントの中でも先頭を走っていることが判明しました。MobiAgent独自の「潜在記憶アクセラレーター」は、過去の操作を学習することで、繰り返し作業を迅速に行うことを可能にし、パフォーマンスの向上は2〜3倍になります。

MobiAgentのコアは、効率的なデータ収集と知能訓練プロセスです。これは、軽量ツールを使ってユーザーのスマホ操作を記録し、一般的なVLMモデルを使用して高品質なトレーニングデータを生成します。これらのデータは精製調整され、訓練されたエージェントが優れた汎化能力を持つように確保されます。MobiAgentの「脳」は3つの部分に分けられています。「計画者」はタスクの計画を担当し、「決定者」は現在の画面に基づいて判断を行い、「実行者」は具体的な操作を実行します。このようなアーキテクチャにより、モデルの訓練がより効率的になり、反応速度が大幅に向上します。

革新的なAgentRR加速フレームワークにより、MobiAgentは過去の操作経験を活かして、繰り返し作業の実行効率を大きく向上させ、最大で60〜85%のアクションリユース率を達成できます。これにより、スマートアシスタントは日常的な業務をより迅速かつ正確に処理できるようになります。

MobiAgentの登場は、個人向けスマートアシスタントのカスタマイズを便利にするだけでなく、モバイルエージェントエコシステム全体の発展を促進し、『口で言うなら手を動かさない』スマート時代の到来を示しています。

論文のリンク:https://arxiv.org/pdf/2509.00531