Liquid AI 最新發佈了 LFM2-VL 系列視覺語言基礎模型(Vision-Language Foundation Models),這標誌着多模態 AI 正朝着「精簡、快速、可部署在設備端」的方向加速發展。
這兩款型號分別是 LFM2-VL-450M 和 LFM2-VL-1.6B,前者專爲資源受限的硬件環境設計,參數量不足5億;後者雖參數更多但依舊輕量,適合單個 GPU 或設備直接部署。

LFM2-VL 擴展自 Liquid AI 之前推出的 LFM2架構,整合了視覺與語言處理能力,支持多分辨率的圖片輸入,可處理文本與圖像,具有極佳的靈活性與兼容性 。模型在 GPU 推理速度上實現了高達「兩倍」的提升,並且在常見性能評測中表現不凡。
在圖像處理方面,LFM2-VL 能以原始分辨率(最高512×512)輸入圖像,避免因強制縮放帶來的失真問題。對於更大尺寸圖像,模型會採用非重疊切片方式處理,並配合縮略圖以獲取全局語境信息 (Venturebeat, liquid.ai)。其架構由語言模型主幹、SigLIP2NaFlex 視覺編碼器與一個多模態投影器構成。投影器使用兩層 MLP(帶 pixel unshuffle 技術)來減少圖像 token 數量,從而提升處理速度 (Venturebeat, liquid.ai)。
訓練數據方面,LFM2-VL 涉及約1,000億多模態訓練 token,來源包括開源數據集與公司自有合成圖像數據 。評測結果顯示,LFM2-VL-1.6B 在 RealWorldQA(65.23)、InfoVQA(58.68)、OCRBench(742)等任務中成績優異,同時在推理效率上領先於同類模型。
目前,這些模型已在 Hugging Face 發佈,並附有在 Colab 上的微調示例代碼,兼容 Hugging Face Transformers 與 TRL 庫。它們採用了一種基於 Apache2.0原則的新“LFM1.0授權協議”,允許學術使用,年收入低於1,000萬美元的公司可用於商業,而年營收更高的企業則需聯繫 Liquid AI 獲取授權)。
Liquid AI 的 LFM2-VL 模型組合爲視覺與文本融合 AI 在設備端部署提供了新的路徑,尤其適合手機、筆記本、可穿戴設備等場景,有助於降低對雲端依賴,提升隱私與響應速度。
項目:https://huggingface.co/LiquidAI/LFM2-VL-1.6B
劃重點:
🆕 兩種型號設計:LFM2-VL-450M(極簡資源環境適用)和 LFM2-VL-1.6B(更強但依然輕量),適配設備端部署。
速度與效率兼顧:GPU 推理速度高達2倍提升,同時具備優秀的多模態任務表現。
多平臺友好環境:已發佈在 Hugging Face,提供授權選項,兼容主流開發工具,適合學術與中小企業商業用途。
