在人工智能的多模態領域,國產大模型正展現出強勁的實力。最新發布的中文多模態大模型測評基準SuperCLUE-V榜單顯示,騰訊的hunyuan-vision和上海AI Lab的InternVL2-40B分別成爲國內閉源和開源界的兩大領跑者,甚至超越了國際知名的Claude-3.5-Sonnet和谷歌的Gemini-1.5-Pro。

騰訊混元大模型的多模態版本,hunyuan-vision,不僅在API調用上受到開發者的青睞,更在騰訊元寶APP中免費向用戶開放體驗。元寶APP一直以"實用AI搭子"著稱,強調實用易用性,而其在多模態能力上的突破,更是在評測中拿下國內第一的佳績。

爲了更直觀地展示國產多模態大模型的進步,我們對騰訊元寶進行了一系列的測試。從梗圖表情包理解、照片內容識別到視覺錯覺挑戰,騰訊元寶都展現出了出色的表現。在實際應用場景中,無論是財報摘要讀取、學術圖表識別還是行測找規律題,元寶都能夠準確理解並給出合理的答案。

▲ 圖源“ CLUE 中文語言理解測評基準”公衆號,下同

特別是在一道考驗對中國文化背景理解的附加題中,騰訊元寶準確識別了《葫蘆兄弟》的截圖,並正確回答了相關問題,顯示出其在理解中文語境方面的優勢。

騰訊混元大模型作爲一位"老朋友",自去年9月首次亮相以來,一直保持快速迭代,目前已擴展至萬億參數規模,覆蓋文本、多模態理解及生成等領域。在國內大模型中,騰訊混元率先完成MoE架構升級,從單個稠密模型升級到多個專家組成的稀疏模型。

騰訊元寶APP,主打"實用AI搭子",不僅在多端同步、聊天記錄同步方面表現出色,更在多模態理解能力上展現出了強大的實力。無論是文檔截圖、人像風景、收銀小票還是任意照片,元寶都能基於圖中內容給出自己的理解和分析。

騰訊元寶團隊表示,接下來將把更多精力放在融合模型多模態能力上,進一步提升用戶體驗。同時,騰訊也在深度搜索和深度長文閱讀等方面進行了功能更新,減少了技術細節的暴露,簡化了用戶操作。