PaLI-3: 小規模ビジョン言語モデルのSOTA達成

グーグルは、PaLI-3と呼ばれる小型のビジョン言語モデルを発表し、最先端(SOTA)レベルのパフォーマンスを達成しました。

対照学習による事前学習方法を採用することで、視覚とテキスト(VIT)モデルの可能性を深く探求し、多言語モーダル検索においてSOTAレベルに到達しました。

PaLI-3は自然言語理解と画像認識を融合し、AIイノベーションの重要な推進力となっています。SigLIPに基づく対照学習による事前学習方法は、多言語クロスモーダル検索の新時代を切り開きました。

まだ完全にオープンソース化されていませんが、多言語と英語のSigLIPモデルを提供することで、研究者たちに試す機会を提供しています。