マイクロソフトは最近、Fara-7Bをリリースしました。これは70億パラメータを持つ新しいコンピュータ使用エージェント(Computer Use Agent、CUA)で、ユーザーのデバイス上で複雑なタスクを直接実行することを目的としています。Fara-7Bはその小さなサイズにより、企業がデータセキュリティにおいて直面する主要な障壁を突破し、ユーザーが機密的なワークフローを自動化できるようにし、例えば内部アカウントの管理や会社の機密データの処理を行う際でも、これらの情報がデバイスから離れることがありません。
Fara-7Bは、人間がマウスとキーボードを使用するように、視覚的にウェブページを認識します。このモデルはスクリーンショットを使ってウェブページを感知し、クリック、入力、スクロールなどの操作を実行するための特定の座標を予測します。他のシステムが「アクセシビリティツリー」に依存しているのとは異なり、Fara-7Bは完全にピクセルレベルの視覚データに依存しており、複雑または混乱したウェブコードに対しても効果的に相互作用できます。

性能テストでは、Fara-7BはWebVoyagerという標準ベンチマークで73.5%のタスク成功率を達成し、GPT-4o(65.1%)や国内のUI-TARS-1.5-7B(66.4%)など、より多くのリソースを消費するシステムを上回りました。また、Fara-7Bの効率も際立っています。平均して約16ステップでタスクを完了する一方、UI-TARS-1.5-7Bは約41ステップかかります。
Fara-7Bのリリースは期待されていますが、他のAIモデルと同じリスクも抱えています。たとえば、誤った判断や複雑な指示の下での実行ミスが起こる可能性があります。こうした問題を解決するために、Fara-7Bは「重要なポイント」を識別するように訓練されており、ユーザーの個人データや承諾が必要な場合に、主動的に停止してユーザーの承認を求める仕組みになっています。これにより、取り消しが不可能な操作を避けることができます。マイクロソフトの研究チームは、これらの重要なポイントとユーザー体験のバランスを取るための「Magentic-UI」というユーザーインターフェースを開発しました。

Fara-7Bの開発は、複雑なシステムの能力をより効率的な小規模モデルに圧縮する知識蒸留のトレンドを示しています。今後のバージョンでは、モデルをよりスマートにすることに注力し、単にサイズを大きくするのではなく、リアルタイムサンドボックス環境で強化学習を通じて学習する方法を探る予定です。
マイクロソフトは、Hugging FaceおよびMicrosoft FoundryでFara-7BのMITライセンス版を提供しており、ユーザーが実験やプロトタイプ開発を行うために利用可能です。ただし、現在では重要なタスクへの直接的な展開には適していません。
重要なポイント:
🌟 Fara-7Bはローカルで動作するコンピュータ用インテリジェントアシスタントであり、データセキュリティとプライバシー保護に焦点を当てています。
⚙️ このモデルは視覚的にウェブページを処理し、ユーザーとのインタラクションがより直感的で、他の大規模モデルよりもはるかに効率的です。
🛡️ Fara-7Bは「重要なポイント」の識別機能を持ち、重要な操作を行う前にユーザーが確認できるようにし、セキュリティを向上させています。
