現代のテクノロジー分野において、CLIP(Contrastive Language-Image Pre-training)は重要なマルチモーダル基盤モデルです。これは大規模な画像とテキストのペアを用いてコントラスティブ学習損失を使用することで、視覚信号とテキスト信号を共通のフィーチャ空間へと統合します。

CLIPは検索エンジンとして、ゼロショット分類、検出、セグメンテーション、そして画像テキスト検索などの様々なタスクをサポートします。同時に、特徴抽出器として、画像理解、動画理解、そしてテキストから画像や動画への生成など、ほぼ全てのクロスモーダル表現タスクにおいて主導的な地位を占めています。CLIPの強みは、詳細なテキスト記述を含む大規模なウェブデータによるトレーニングのおかげで、画像と自然言語を結びつけ、人間の知識を捉えることができる点にあります。

しかし、CLIPは長く複雑なテキストの説明を処理する際に、ある程度の限界があります。この問題を克服するために、マイクロソフトと同済大学はLLM2CLIP手法を提案しました。これは大規模言語モデル(LLMs)を統合することで、視覚表現学習を強化することを目指しています。この手法は、CLIPの元のテキストエンコーダを大胆に置き換え、LLMsの豊富な知識を活用してCLIPの視覚エンコーダの性能を向上させます。研究によると、LLMsを直接CLIPに統合すると性能が低下するため、この課題を解決する必要があります。

image.png

LLM2CLIP手法は「タイトルコントラスティブファインチューニング」技術を導入することで、LLMが分離された画像タイトルを扱う能力を大幅に向上させ、性能の著しい向上を実現しました。

研究者たちは、小規模なCC-3M、中規模のCC-3MとCC-12M、そして大規模なCC-3M、CC-12M、YFCC-15M、Recaption-1Bなど、様々な大きさのデータセットを用いてファインチューニング実験を行いました。その結果、LLM2CLIPでトレーニングされたモデルは、画像からテキストへの検索、そしてテキストから画像への検索タスクにおいて、従来のCLIPやEVAモデルよりも優れた性能を示しました。

image.png

Llava1.5などのモデルと組み合わせたマルチモーダルトレーニングを行うことで、LLM2CLIPはほぼ全てのベンチマークテストで優れた結果を示し、特に長短テキスト検索タスクにおいて、以前のEVA02モデルの性能を16.5%向上させました。この革新的な手法は、CLIPを英語データのみを処理するモデルから強力なクロスリンガルムルチモーダルモデルへと進化させるだけでなく、CLIPトレーニングの今後の研究の基礎も築きました。

モデル:https://huggingface.co/collections/microsoft/llm2clip-672323a266173cfa40b32d4c

コード:https://github.com/microsoft/LLM2CLIP/

論文:https://arxiv.org/abs/2411.04997

要点:

🌟 LLM2CLIPは、マイクロソフトと同済大学が共同で提案した革新的な手法で、CLIPのテキストエンコーダを置き換えることで、その視覚エンコーダの性能を向上させることを目指しています。

📈 この手法は「タイトルコントラスティブファインチューニング」技術によって、モデルの画像とテキストの一致度を大幅に向上させ、既存の最先端モデルを凌駕しました。

🌐 LLM2CLIPは複数のデータセットでの実験において、長短テキスト検索タスクで従来のモデルを上回る性能を示し、クロスリンガルムルチモーダルモデルの発展を推進しました。