アップルのAI/MLチームとコロンビア大学が共同開発した多様な大規模言語モデル「雪貂(Ferret)」が、グーグルのCAPTCHA(人機検証システム)を突破することに成功しました。交通信号灯の認識や、「見て、言って、答える」タスクにおける精度向上に貢献しています。
Ferretの革新的な点は、参照と位置情報の空間理解能力を統合している点にあります。従来の多様な大規模言語モデルとは異なり、意味と対象を同時に理解します。混合領域表現手法を用い、離散座標と連続特徴を組み合わせることで、多様なタスク評価において優れた性能を発揮、特に指示参照と視覚的グラウンディングタスクにおいて顕著な成果を上げています。
この画期的な成果は中国のチームによって達成され、中国における多様な大規模言語モデル研究の力を示しています。画像理解や多様なタスクに新たな方向性を提示するものです。Ferretの成果は、人機インタラクションやスマート検索などの分野で重要な進歩をもたらすことが期待されます。
