清華大學與智譜 AI 合作開發的國產多模態模型 CogVLM-17B 表現出卓越的性能。該模型可以識別圖像中的對象,並且能夠分辨完整可見和部分可見的物體。CogVLM-17B 採用了獨特的深度融合方法,通過四個關鍵組件實現了圖像特徵和文本特徵的深度對齊。該模型在多個領域超越了谷歌的模型,被稱爲 “14 邊形戰士”,展現了出色的多模態處理能力。這款國產多模態模型爲多模態領域的技術研究提供了新的思路和可能性。