現在のAIによる画像認識には、隠れた欠点がある。

「この画像には何が写っているか」と尋ねれば、しっかり答えてくれる。しかし、「この画像のパンダの左後ろの足はどこにあるか」と聞かれると、曖昧になる。これは特定のモデルだけの問題ではなく、視覚と言語の大きなモデル分野において長期間存在している一般的な問題である——全体の理解は強いけれど、局所的な位置の理解は弱い。

グーグルDeepMindは最新の論文で、この難問を解決するためのTIPSv2という手法を提案した。

image.png

研究チームは調査の中で、直感に反する現象を発見した。細かいセグメンテーションタスクでは、パラメータ数が少ない「生徒モデル」の方が、より大きい「教師モデル」をよく越えることが多い。その理由は、蒸留プロセスによってカバー機構が除去され、モデルが画像全体のすべての詳細を学ばざるを得なくなったためである。これにより「全領域監督」が形成された。この発見からインスピレーションを受けたTIPSv2は、この点に基づいて3つの重要な改善を行った。

第一の改善はiBOT++である。従来の前処理では、画像の中の隠された領域のみ損失を計算していたが、見える領域は「放任」状態であり、局所的な意味がずれやすい。iBOT++では、モデルがすべての見える領域に対して正確な監督を行うことを求め、まるで「クイズゲーム」から「全文精読」へと進化させた。この変更だけで、ゼロサンプルセグメンテーション性能は14.1ポイントも向上した。

第二の改善はHead-only EMAである。従来の自己教師付きトレーニングでは、メモリにほぼ同じ大きさの大規模モデルを2つ保持する必要があり、コストが非常に高かった。TIPSv2は、画像とテキストの対比損失自体が主幹ネットワークを安定して維持できることを発見したため、EMAは最終的なプロジェクションヘッドにのみ作用させ、主幹は複製しなくなった。その結果、トレーニングのパラメータ量は約42%減少し、スピードが速くなり、性能はほとんど損なわれなかった。

第三の改善は多粒度テキストの組み合わせである。トレーニング中にウェブページの簡潔な説明、中程度の詳細な説明、そしてGeminiによって生成された長い説明をランダムに与え、難易度を交互にすることにより、モデルが単純なタスクのために「サボらない」ようにし、同時に詳細が失われないようにしている。

最終的な効果は非常に実りあるものだった。TIPSv2は、9つの主要なタスクおよび20の権威あるデータセットで評価を行い、ゼロサンプルのセマンティックセグメンテーションにおいて業界最高記録を更新し、画像とテキストの検索や分類では、自身よりパラメータ数が56%多い比較モデルを下回った。純粋な視覚タスクでも、すべての上位にランクインした。

現在、TIPSv2のコードとモデルの重みは全面的にオープンソースとなった。医療画像、自動運転、工業検査など、高精度な画像理解が必要なチームにとって、この仕組みは真剣に検討すべきものである。

論文のリンク:https://www.alphaxiv.org/abs/2604.12012