メタ社は最近、人工知能分野において、WebSSLシリーズモデルを発表しました。このモデルシリーズのパラメータ数は3億から70億と幅広く、純粋な画像データを用いて訓練されており、言語による教師なしの視覚的自己教師あり学習(SSL)の可能性を探求することを目的としています。この新たな研究は、将来のマルチモーダルタスクに新たな可能性をもたらし、視覚表現の学習方法に対する理解を深める上で新たな視点を与えてくれます。

これまで、OpenAIのCLIPモデルは、視覚的質問応答(VQA)や文書理解などのマルチモーダルタスクにおける優れたパフォーマンスで注目を集めてきました。しかし、データセットの取得の複雑さと規模の制限により、言語ベースの学習方法は多くの課題に直面していました。この問題に対処するため、メタ社は独自のMetaCLIPデータセット(MC-2B)にある20億枚の画像を用いて、言語による教師なしでモデルを訓練することにしました。この戦略により、研究者たちはデータやモデルの規模に制限されることなく、純粋な視覚的自己教師あり学習のパフォーマンスを深く評価することが可能になりました。

image.png

WebSSLモデルは、2つの主要な視覚的自己教師あり学習パラダイム、結合埋め込み学習(DINOv2)とマスクモデリング(MAE)を採用しています。すべてのモデルは224×224ピクセルの解像度の画像を用いて訓練され、視覚エンコーダは固定されています。これにより、結果の差異が事前訓練戦略のみに由来することを保証しています。このモデルシリーズは5つの容量レベル(ViT-1BからViT-7B)で訓練され、Cambrian-1ベンチマークテストで評価されています。このテストは、一般的な視覚理解、知識推論、OCR(光学文字認識)、グラフ解釈など、16のVQAタスクを網羅しています。

実験結果によると、モデルのパラメータ数が増加するにつれて、WebSSLのVQAタスクにおけるパフォーマンスは著しく向上し、特にOCRとグラフタスクではCLIPを上回る結果を示しました。さらに、高解像度(518px)での微調整により、文書タスクにおけるパフォーマンスも大幅に向上し、いくつかの高解像度モデルとの差を縮めました。

image.png

注目すべきは、WebSSLは言語による教師なし学習にもかかわらず、LLaMA-3などの事前学習済み言語モデルと良好な整合性を示したことです。これは、大規模視覚モデルがテキストのセマンティクスに関連する特徴を暗黙的に学習できることを意味しており、視覚と言語の関係について新たな考察を与えてくれます。

メタ社のWebSSLモデルは、従来のベンチマークテストで優れたパフォーマンスを示しただけでなく、将来の言語なし学習研究のための新たな方向性を示唆しています。