正文

清華唐傑 & 智譜開源 CogVLM-17B：國產多模態模型挑戰 GPT-4V

發布於AI新閒資訊

時間 :Oct 10, 2023

閱讀 :1分鐘

清華大學與智譜 AI 合作開發的國產多模態模型 CogVLM-17B 表現出卓越的性能。該模型可以識別圖像中的對象，並且能夠分辨完整可見和部分可見的物體。CogVLM-17B 採用了獨特的深度融合方法，通過四個關鍵組件實現了圖像特徵和文本特徵的深度對齊。該模型在多個領域超越了谷歌的模型，被稱爲 “14 邊形戰士”，展現了出色的多模態處理能力。這款國產多模態模型爲多模態領域的技術研究提供了新的思路和可能性。

AI創作新高度：字節跳動發佈Seedream 5.0 Pro，開啓交互式精準編輯時代

字節跳動發佈多模態AI模型Seedream5.0Pro，推動圖像創作從生成邁向設計。該模型在圖文匹配、結構合理性、文字渲染和畫面質感上顯著提升，並重點突破複雜信息可視化能力，能精準解析意圖，將數據、概念和密集文字轉化爲專業視覺呈現。

Jul 9, 2026

285.8k

OpenAI又走一員大將：田永龍疑似投奔騰訊混元，將執掌多模態方向

前OpenAI研究員田永龍加盟騰訊，負責混元多模態模型與視覺語言模型研發。繼姚順雨後，又一位OpenAI核心人才轉投騰訊混元，兩人曾共事。姚順雨2025年9月加入任首席AI科學家，直接向總裁彙報。

Jul 8, 2026

217.3k

OpenAI 前研究員田永龍被曝加入騰訊混元多模態團隊

OpenAI前研究員田永龍已加入騰訊，或將擔任混元多模態模型負責人，主導視覺語言模型（VLM）研發。消息尚未官宣但備受業界關注，繼姚順雨之後，他成爲混元團隊引進的又一核心人才，顯示騰訊正加速強化多模態大模型領域的人才與技術佈局。

Jul 8, 2026

285.6k

國產多模態大模型迎來里程碑，MiniMax M3 正式開源且響應速度倍增

稀宇科技今日宣佈開源其原生多模態旗艦模型MiniMax M3，總參數428B，激活參數23B，爲行業首個此類模型。此前已開放權重併發布稀疏注意力機制論文，引發廣泛關注。該模型綜合性能在開源模型中排名第一。

Jun 16, 2026

4,095.0k

16GB內存本地即時響應！谷歌發佈Gemma 4 12B，顛覆性“無編碼器”架構引爆開源社區

谷歌發佈全新多模態模型Gemma4 12B，顛覆傳統架構，取消獨立編碼器組件，實現消費級硬件上的高效本地部署與推理。這一突破顯著降低多模態模型的計算複雜度，提升運行速度，標誌着開源大模型生態進入新階段。

Jun 4, 2026

272.7k

智啟未來，您的人工智能解決方案智庫