正文

谷歌發佈小體量PaLI-3視覺語言模型，實現SOTA性能

aibase

發布於AI新閒資訊

時間 :Oct 27, 2023

閱讀 :1分鐘

谷歌發佈了名爲PaLI-3的小體量視覺語言模型，取得SOTA水平性能。採用對比預訓練方法，深入研究了視覺-文本（VIT）模型的潛力，達到多語言模態檢索的SOTA水平。PaLI-3將自然語言理解和圖像識別融合，成爲AI創新的重要力量。基於SigLIP的對比預訓練方法開闢了多語言跨模態檢索的新時代。儘管尚未完全開源，但提供多語言和英文SigLIP模型，爲研究人員提供嘗試的機會。

相關推薦

AI人才爭奪戰升級:OpenAI、谷歌等科技巨頭爲實習生開出“天價”薪資

AI人才爭奪戰白熱化，頂尖公司實習崗薪酬飆升。OpenAI半年期項目月薪達1.83萬美元，遠超傳統行業資深員工待遇。

Alphabet 斥資 47.5 億美元收購 Intersect，加碼 AI 算力的綠色能源引擎

谷歌母公司Alphabet以47.5億美元收購清潔能源開發商Intersect，以應對AI算力激增帶來的電力需求。此舉凸顯科技巨頭在AI競賽中對穩定能源供應的迫切需求。

谷歌推出 A2UI 標準，讓 AI 實時生成用戶界面

谷歌推出A2UI新標準，讓AI能直接生成圖形界面元素，如按鈕和表單，提升交互體驗。傳統AI交互依賴文本，處理複雜任務繁瑣。A2UI開源項目規範AI生成視覺響應，使客服等場景能即時創建界面，簡化操作流程。

谷歌推出A2UI開放標準:讓AI代理秒變"界面設計師"，告別枯燥文字對話

谷歌推出A2UI開放標準，讓AI代理能即時生成圖形界面元素，如表單和按鈕，無縫融入應用，實現從純文本到動態界面的交互變革。該標準採用Apache 2.0許可證，旨在規範AI創建視覺響應的方式，彌合生成式AI與圖形用戶界面之間的鴻溝。

谷歌 Gemini 應用推出視頻生成 AI 檢測新功能

谷歌Gemini應用推出AI生成視頻驗證功能，幫助用戶識別內容是否由其AI技術生成，以應對AI內容真實性挑戰。

AIBase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIBase