AIビジョン分野において、物体検出は長らく困難な課題でした。従来のアルゴリズムは「近視眼」のようなもので、目標を大雑把に「枠」で囲むことはできても、内部の細部までは認識できませんでした。これは、友人に人物を説明する際に、身長や体型だけを伝え、友人がその人物を見つけられるかのようなものです!
この問題を解決するため、イリノイ工科大学、シスコ研究所、中央フロリダ大学の研究者チームが、SegVGという新しいビジョン定位フレームワークを開発し、AIが「近視眼」を克服すると宣言しました!
SegVGの中核となる秘密は「ピクセルレベル」の細部情報です!従来のアルゴリズムは境界ボックス情報のみでAIを学習させていましたが、これはAIにぼやけた影を見せるようなものです。一方、SegVGは境界ボックス情報をセグメンテーション信号に変換することで、AIに「高解像度メガネ」をかけるような効果があり、AIは目標のあらゆるピクセルを認識できるようになります!
具体的には、SegVGは「多層多タスクエンコーダー・デコーダー」を採用しています。この名前は複雑に聞こえますが、これは非常に精密な「顕微鏡」と考えることができます。そこには、回帰用のクエリと、セグメンテーション用の複数のクエリが含まれています。簡単に言えば、異なる「レンズ」を使用して境界ボックス回帰とセグメンテーションタスクをそれぞれ実行し、目標を繰り返し観察して、より詳細な情報を抽出します。
さらに素晴らしいことに、SegVGは「三元アライメントモジュール」を導入しており、これはAIに「翻訳機」を搭載することに相当します。これは、モデルの事前学習パラメーターとクエリ埋め込み間の「言語の壁」の問題を解決するためのものです。三元注意機構を通じて、この「翻訳機」はクエリ、テキスト、視覚特徴を同じチャネルに「翻訳」し、AIが目標情報をより適切に理解できるようにします。
SegVGの効果はどの程度でしょうか?研究者チームは5つの一般的なデータセットで実験を行い、SegVGが従来のアルゴリズムを凌駕することを発見しました!特に、RefCOCO+とRefCOCOgという有名な「難問」データセットでは、SegVGは画期的な成果を達成しました!
正確な位置特定に加えて、SegVGはモデル予測の信頼度スコアを出力することもできます。簡単に言えば、AIは自身の判断にどれだけの確信度を持っているかを伝えます。これは、医学画像の識別など、実際の応用において非常に重要です。AIの信頼度が低い場合、誤診を防ぐために手動で確認する必要があります。
SegVGのオープンソース化は、AIビジョン分野全体にとって大きな朗報です!今後、ますます多くの開発者や研究者がSegVGの陣営に加わり、AIビジョン技術の発展を推進していくものと期待されます。
論文アドレス:https://arxiv.org/pdf/2407.03200
コードリンク:https://github.com/WeitaiKang/SegVG/tree/main