相關推薦
上海AI實驗室開源InternVL3系列多模態大型語言模型
OpenGVLab開源發佈了InternVL3系列模型,這標誌着多模態大型語言模型(MLLM)領域迎來了新的里程碑。InternVL3系列包含從1B到78B共7個尺寸的模型,能夠同時處理文字、圖片、視頻等多種信息,展現出卓越的整體性能。
Meta最新音頻大模型SPIRIT LM,讓AI不止能說會道,還能“聲情並茂”!
Meta AI近日重磅開源了名爲SPIRIT LM的基礎多模態語言模型,該模型能夠自由混合文本和語音,爲音頻和文本的多模態任務打開了新的可能性。SPIRIT LM基於一個70億參數的預訓練文本語言模型,通過在文本和語音單元上進行持續訓練,擴展到語音模態。它可以像文本大模型一樣理解和生成文本,同時還能理解和生成語音,甚至可以把文本和語音混合在一起,創造出各種神奇的效果! 比如,你可以用它來做語音識別,把語音轉換成文字;也可以用它來做語音合成,把文字轉換成語音;還可以用它來做
Salesforce AI研究推全新多模態模型BLIP-3-Video:低成本搞定視頻理解
最近,Salesforce AI 研究團隊推出了一款全新的多模態語言模型 ——BLIP-3-Video。隨着視頻內容的快速增加,如何高效處理視頻數據成爲了一個亟待解決的問題。這款模型的出現,旨在提升視頻理解的效率和效果,適用於從自動駕駛到娛樂等各個行業。傳統的視頻理解模型往往是逐幀處理視頻,生成大量的視覺信息。這一過程不僅消耗了大量的計算資源,還極大地限制了處理長視頻的能力。隨着視頻數據量的不斷增長,這種方法變得愈發低效,因此,找到一種既能捕捉到視頻的關鍵信息,又能
零一萬物發佈 Yi-VL 多模態語言模型 包括兩個版本
["零一萬物 Yi-VL 多模態語言模型上線,包括 Yi-VL-34B 和 Yi-VL-6B 兩個版本","Yi-VL 模型在圖文理解和對話生成方面具備卓越能力","Yi-VL 模型在英文和中文數據集上取得領先成績","Yi-VL-34B 以 41.6% 的準確率超越其他多模態大模型","Yi-VL 模型基於 LLaVA 架構,具備強大的語言理解和生成能力"]
新加坡國立大學發佈開源多模態語言模型 NExT-GPT,助力多媒體 AI 應用發展
["NExT-GPT 是新加坡國立大學開源的多模態語言模型,支持處理文本、圖像、視頻和音頻,爲多媒體人工智能應用提供強大支持。","採用三層架構,包括線性投影、Vicuna LLM 核心和模態特定的轉換層,通過 MosIT 技術進行中間層訓練。","開源貢獻使研究者和開發者能夠創建集成多模態輸入的應用,潛在應用領域廣泛。","NExT-GPT 獨特之處在於能夠根據用戶請求生成模態信令標記,爲不同媒體類型的人工智能應用提供了新的可能性。"]
