谷歌發佈了名爲PaLI-3的小體量視覺語言模型,取得SOTA水平性能。採用對比預訓練方法,深入研究了視覺-文本(VIT)模型的潛力,達到多語言模態檢索的SOTA水平。PaLI-3將自然語言理解和圖像識別融合,成爲AI創新的重要力量。基於SigLIP的對比預訓練方法開闢了多語言跨模態檢索的新時代。儘管尚未完全開源,但提供多語言和英文SigLIP模型,爲研究人員提供嘗試的機會。