近年來,大語言模型(LLM)在人工智能領域取得了顯著進展,尤其是在多模態融合方面。華中科技大學、字節跳動與香港大學的聯合團隊最近提出了一種新型的多模態生成框架 ——Liquid,旨在解決當前主流多模態模型在視覺處理上的侷限性。
傳統的多模態大模型依賴複雜的外部視覺模塊,這不僅增加了系統的複雜性,還限制了其擴展性。Liquid 的創新之處在於,它採用 VQGAN 作爲圖像分詞器,摒棄了對外部視覺組件的依賴,通過將圖像編碼爲離散的視覺 token,使得模型可以直接與文本 token 共享詞表,從而實現 “原生” 的視覺理解與生成能力。
研究發現,Liquid 不僅能夠降低訓練成本,還揭示了多模態能力與 LLM 的尺度規律。團隊在不同規模(從0.5B 到32B)的 LLM 上進行了實驗,結果顯示,隨着模型規模的擴大,其視覺生成任務的性能和生成質量均遵循與語言任務一致的縮放規律。更令人振奮的是,視覺理解與生成任務之間存在雙向促進的關係,即兩者可以通過共享的表示空間實現聯合優化。
Liquid 的設計充分體現了極簡主義,它將圖像與文本一視同仁,採用統一的處理框架。在構建過程中,研究團隊利用30M 的文本數據和30M 的圖文對數據,爲模型的多模態訓練奠定了基礎。最終的實驗結果表明,Liquid 在多模態理解、圖像生成及純文本任務中都表現出了優越的性能,其生成的圖像與文本之間的語義一致性顯著高於其他自迴歸模型。
Liquid 的提出爲通用多模態智能的架構設計提供了新思路,預示着人工智能在多模態融合的未來可能會迎來更加高效和靈活的進化。
論文鏈接:https://arxiv.org/pdf/2412.04332