最近、清華大学THUNLP研究所と面壁智能は、革新的なエンドツーエンドのGUIエージェント「**AgentCPM-GUI**」を共同で発表しました。これはモバイルデバイスの人間とコンピュータの相互作用に新しい突破口をもたらします。このインテリジェントエージェントは**MiniCPM-V**モデルに基づいており、総パラメータ数はわずか**8B**です。スマホ画面の画像を入力とし、中英語での操作が可能で、ユーザーが提示したタスクを自動的に実行し、強力なGUI要素の位置特定能力を示しています。

AgentCPM-GUIは、**高徳地図**、**大衆点評**、**Bilibili**、**Xiaohongshu**など、**30以上の主要な中国語アプリ**をカバーしており、アプリインターフェースの要素を正確に認識し操作することが可能です。ナビゲーション、飲食注文、コンテンツ閲覧など、さまざまなニーズに対応し、ユーザー体験を大幅に向上させています。

特に注目すべきは、このモデルが**RFT(実行前の思考)**技術を採用していることです。ユーザーの指示を実行する前に、AgentCPM-GUIは事前に推論を行い、より正確なアクションシーケンスを生成します。これにより、タスク実行の成功率と信頼性が大幅に向上します。この技術の導入により、エンドツーエンドAI分野での顕著な成果を示しています。

軽量で高性能なモデルであるAgentCPM-GUIは、スマホなどのエンドデバイス上でスムーズに動作し、清華大学THUNLP研究所と面壁智能のAI技術の深遠な力を見せつけました。今後、このGUIエージェントはエンドツーエンドAIの普及と応用をさらに促進し、スマートデバイスの効率的なインタラクション時代へと導きます。