カリフォルニア大学サンタクルズ校は最近、OpenVisionの発表を発表しました。これは、OpenAIのCLIPやGoogleのSigLIPなどのモデルに代わる新しい視覚エンコーダーシリーズです。OpenVisionの登場により、開発者や企業はより多くの柔軟性と選択肢を得られ、画像処理や理解がさらに効率的になります。

QQ_1747104293206.png

視覚エンコーダとは?

視覚エンコーダは人工知能モデルの一種で、視覚データ(通常はアップロードされた静止画イメージ)を他の非視覚モデル(例:大規模言語モデル)が理解できる数値データに変換します。視覚エンコーダは画像とテキスト理解を結ぶ重要なブリッジであり、大規模言語モデルが画像内のテーマ、色、位置などの特徴を認識し、より複雑な推論やインタラクションを行うための基盤を提供します。

QQ_1747104314162.png

OpenVisionの機能特長

1. **豊富なモデル選択**

OpenVisionには、パラメータ規模が590万から6億3200万まで異なる26種類のモデルが提供されています。この多様性により、開発者は具体的なアプリケーションシーンに合わせて適切なモデルを選択できます。たとえば、建設現場での画像認識や家庭用家電のトラブルシューティングガイドラインの提供など。

2. **柔軟なデプロイアーキテクチャ**

OpenVisionはさまざまな使用シナリオに対応する設計となっています。大きなモデルはサーバーレベルの負荷に適しており、高い正確さと詳細な視覚的理解が求められます。一方、小さなバリエーションはエッジコンピューティングに最適化されており、計算リソースやメモリ制限のある環境に適しています。また、モデルは8×8や16×16のアダプティブパッチサイズをサポートしており、詳細な解像度と計算負荷のバランスを調整できます。

3. **優れたマルチモーダルベンチマーク結果**

一連のベンチマークテストにおいて、OpenVisionは様々なビジュアル-言語タスクで優れたパフォーマンスを示しました。OpenVisionの評価には従来のCLIPベンチマーク(ImageNetやMSCOCOなど)も含まれますが、研究チームはこれらの指標だけに頼らず、より広範なベンチマークカバレッジとオープンな評価プロトコルを使用してモデルのパフォーマンスを評価することを推奨しています。これにより、リアルワールドのマルチモーダルアプリケーションをより適切に反映できます。

4. **効率的なプログレッシブトレーニング戦略**

OpenVisionはプログレッシブリゾリューショントレーニング戦略を採用しています。モデルは低解像度の画像から始まり、徐々に高解像度へ微調整されます。この手法により、トレーニング効率が向上し、CLIPやSigLIPと比較して2〜3倍速くなりますが、ダウンストリームのパフォーマンスには影響しません。

5. **軽量システムおよびエッジコンピューティング向けの最適化**

OpenVisionは小型言語モデルとの効果的な統合にも対応しています。実験では、150万パラメータのSmol-LMモデルと組み合わせて、全体のパラメータが250万未満になるマルチモーダルモデルを作成しました。モデルサイズは小さいながらも、ビジュアルクエスチョンアンドアンサー、ドキュメント理解などのタスクでは良好な精度を保っています。

企業における重要性

OpenVisionの完全オープンソースとモジュール指向の開発方法は、企業の技術意思決定者にとって戦略的に意味があります。大規模言語モデルの開発と展開に高性能な視覚機能を提供するだけでなく、企業の機密データが漏洩することも防ぎます。さらに、OpenVisionの透明なアーキテクチャにより、セキュリティチームはモデルの潜在的な脆弱性を監視・評価できます。

OpenVisionのモデルライブラリはPyTorchとJAXで実装され、Hugging Faceでもダウンロード可能です。トレーニングレシピも公開されています。透明で効率的、かつ拡張可能な代替手段を通じて、OpenVisionは研究者や開発者にフレキシブルな基盤を提供し、ビジュアル-言語アプリケーションの発展を促進します。

プロジェクト:https://ucsc-vlaa.github.io/OpenVision/