3月27日,騰訊開源團隊宣佈推出了一項創新的多模態理解技術——HaploVL。這一技術旨在通過單個Transformer架構實現高效的多模態融合,顯著提升AI在視覺和語言交互中的表現,特別是在細粒度視覺理解任務上。

在人工智能領域,多模態大模型(LMMs)近年來迅速崛起,它們能夠實現複雜的視覺-語言對話和交互。然而,現有的多模態模型大多采用“視覺編碼器 + 大語言模型”的組合架構,這種架構雖然有效,但在處理細粒度任務時存在不足。例如,預訓練的視覺編碼器(如CLIP)可能會忽略圖像中的關鍵細節,如物體顏色或小目標位置,導致模型在某些任務上的表現不佳。此外,現有的統一架構模型(如Fuyu)雖然簡化了流程,但需要大量的數據和計算資源來訓練,且性能仍落後於組合式模型。

HaploVL的出現正是爲了解決這些問題。它採用單Transformer架構,通過動態融合文本和視覺信息,讓文本嵌入能夠“捕捉”所需的視覺線索,同時顯著減少了訓練數據的需求。在性能上,HaploVL不僅能夠與現有的組合式模型相媲美,還在細粒度視覺理解任務上表現出色。

微信截圖_20250327173627.png

HaploVL的架構設計充滿巧思。它通過多模態嵌入層直接對圖像和文本進行編碼,並在模型前端設置了一個預解碼器(視覺知識引擎),用於動態融合圖文信息。這一設計類似於“雷達”,能夠掃描圖像中的細節,並捕捉圖像內部的關聯和多圖之間的時序關係。後解碼器(語言生成引擎)則基於融合後的特徵生成自然語言回覆,繼承了大語言模型的語言能力,能夠快速學習多模態關聯並生成邏輯連貫的回答。

HaploVL的訓練方法也頗具創新性。它採用了兩階段訓練方法,首先在預訓練階段對模型進行初始化,然後在微調階段對特定任務進行優化。這種訓練方式不僅提高了模型的泛化能力,還減少了對大規模數據集的依賴。

在實驗中,HaploVL在多項多模態基準測試中展現出優異的性能,尤其是在細粒度視覺理解任務上。例如,在邊緣物體感知和推理任務中,HaploVL能夠準確識別圖像中的高亮區域,並生成與之相關的自然語言描述。這一能力在實際應用中具有重要意義,例如在自動駕駛、智能安防等領域,細粒度視覺理解能夠幫助系統更準確地感知環境並做出決策。

Code: https://github.com/Tencent/HaploVLM

Arxiv: https://arxiv.org/abs/2503.14694