アップル社は先日、次世代人工知能システム「Ferret-UI2」を発表しました。このクロスプラットフォームAIアシスタントは、UI要素認識において大きな進歩を遂げ、テストスコアは89.73点を記録し、GPT-4Vの77.73点を大きく上回りました。その卓越した性能が示されています。

このシステム最大の特長は、ユーザーの意図をスマートに理解する能力です。従来の座標クリックベースの操作方法とは異なり、Ferret-UI2はユーザーの自然言語指示に基づいて、自動的に対応する操作を特定し実行します。研究チームはGPT-4Vの画像認識能力を活用してトレーニングデータを作成することで、システムがインターフェース要素間の空間関係をより正確に理解できるようにしました。

image.png

技術アーキテクチャにおいて、Ferret-UI2は適応型設計を採用しており、iPhone、iPad、Androidデバイス、ウェブブラウザ、Apple TVなど複数のプラットフォームでUI要素を正確に認識できます。また、システムにはスマートアルゴリズムが搭載されており、プラットフォームに応じて画像解像度と処理ニーズを自動的に調整し、情報の完全性を維持しながらローカルでの計算効率を確保します。

1.png

実際のテストデータによると、このシステムは各プラットフォームで優れたパフォーマンスを示しています。iPhoneではスムーズに動作し、iPadでは68%の精度、Androidデバイスでは71%の成功率を達成しました。しかし、モバイルデバイスとテレビやウェブインターフェース間を切り替えるなど、デバイス間での操作では、異なるプラットフォーム間のインターフェースレイアウトの違いが原因で、まだ課題が残っています。

注目すべきは、UIインタラクションAI分野の競争が激化していることです。Anthropicは最近、Claude3.5 SonnetのUIインタラクション能力を強化し、MicrosoftはOmniParserツールをオープンソース化して、スクリーンコンテンツを構造化データに変換することに取り組んでいます。

アップルは同時にCAMPHORフレームワークを発表し、専門的なAIエージェントとメイン制御推論エージェントの連携により、複雑なタスク処理能力をさらに強化しました。これは、Siriなどの音声アシスタントがレストランの予約などの複雑なタスクを、ユーザーがインターフェースを手動で操作することなく、よりスマートに実行できるようになることを意味します。

この技術の進歩は、デバイス間の操作のスマート化レベルを高めるだけでなく、次世代の人と機械のインタラクションの明確な発展図を描いています。技術の進化に伴い、よりスマートで自然な人と機械のインタラクション体験がすぐそこに来ています。