近日,NVIDIA 推出了新一代開放視覺語言模型 ——NVILA。該旨在優化準確性和效率,憑藉出色的性能,成爲視覺 AI 領域的佼者。

根據 NVIDIA 的介紹,NVILA 在訓練成本上降低了4.5倍微調所需內存減少了3.4倍,並且在預填充和解碼的延遲上幾乎降低了2倍。這些數據是與另一種大型視覺模型 LLaVa OneVision 進行比較得出的。

image.png

在視頻基準測試中,NVILA 的表現超過了 GPT4o Mini,並且在與 GPT4o、Sonnet3.5和 Gemini1.5Pro 的比較中也表現出色。此外,NVILA 還在與 Llama3.2的對比中取得了微弱勝利。儘管如此,NVIDIA 表示,目前尚未將該模型發佈到 Hugging Face 平臺上,他們承諾會很快發佈代碼和模型,以促進模型的可復現性。

NVIDIA 指出,訓練視覺語言模型的成本非常高,訓練一個7B 參數的視覺語言模型大約需要400個 GPU 天。同時,微調這樣的模型也非常耗費內存,7B 參數的模型需要超過64GB 的 GPU 內存。

因此,NVIDIA 採用了一種名爲 “先擴展後壓縮” 的技術,旨在平衡模型的準確性與效率。該模型並不通過降低照片和視頻的大小來化輸入,而是使用高分辨率像和視頻中的多個幀,以確保不丟失任何細節。

image.png

在壓縮過程中,模型通過將視覺信息壓縮爲更少的 token,來減少輸入數據的大小,並將像素進行分組,以保留重要信息。NVIDIA 在論文中提到,雙倍分辨率將使視覺 token 數量翻倍,這將使訓練和推理成本增加超過2倍。因此,他們通過壓縮空間 / 時間 token 降低這部分成本。

NVIDIA 還展示些模型的演示效果,NVILA 能夠根據一張圖片或一段視頻回答多個查詢。它的輸出結果還與 NVIDIA 之前發佈的 VILA1.5模型進行了對比。此外,NVIDIA 還詳細介紹了一些其他技術,例如動態 S2擴展、基於 DeltaLoss 的數據集修剪、使用 FP8精度進行量化等。

這些技術均應用於一個8B 參數的模型,具體細節可以在 Arxiv 上查看。

論文入口:https://arxiv.org/pdf/2412.04468

劃重點:

🌟 NVILA 模型在訓練成本上降低了4.5倍,提升了視覺 AI 的效率。  

📉 通過高分辨率圖像和視頻幀,NVILA 確保了輸入信息的完整性。  

📊 NVIDIA 承諾將很快發佈代碼與模型,促進研究的可復現性。