智譜AI近日重磅發佈了其最新基座大模型GLM-4-Plus,展示了堪比OpenAI GPT-4的強大視覺能力,並宣佈將於8月30日開放使用。這一突破性進展不僅標誌着國產AI技術的飛躍,更爲用戶帶來了前所未有的智能體驗。

主要更新亮點:

  • 語言基礎模型GLM-4-Plus:在語言解析、指令執行和長文本處理能力上實現了質的飛躍,持續保持在國際競爭中的領先地位。

  • 文生圖模型CogView-3-Plus:性能與業界頂尖的MJ-V6和FLUX模型相媲美。

  • 圖像/視頻理解模型GLM-4V-Plus:不僅在圖像理解方面表現出色,還具備基於時間序列分析的視頻理解能力。該模型即將在開放平臺bigmodel.cn上線,併成爲國內首個通用的視頻理解模型API。

  • 視頻生成模型CogVideoX:繼2B版本發佈並開源後,5B版本也正式對外開源,性能得到顯著提升,成爲目前開源視頻生成模型中的佼佼者。

  • 智譜開源模型的累計下載量已超過2000萬次,爲開源社區的繁榮發展做出了顯著貢獻。

image.png

GLM-4-Plus在多個關鍵領域均表現出色。在語言能力方面,該模型在理解、指令遵循和長文本處理等方面已達到國際領先水平,其表現與GPT-4和擁有405B參數的Llama3.1不相上下。特別值得一提的是,GLM-4-Plus通過精準的長短文本數據混合策略,顯著提升了長文本推理效果。

image.png

在視覺智能領域,GLM-4V-Plus展現出卓越的圖像和視頻理解能力。它不僅具備時間感知能力,還能處理和理解複雜的視頻內容。值得注意的是,該模型將在智譜開放平臺上線,成爲國內首個通用視頻理解模型API,爲開發者和研究人員提供強大的工具。

image.png

比如,你給它一段這樣的視頻,並詢問它穿綠色衣服的球員在整個視頻都做了什麼?它可以精準地描述球員的球員所做的動作,還能準確地告訴你視頻的精彩時刻在第幾秒:

image.png

截圖自官方

智譜AI在生成領域同樣取得了突破性進展。CogView-3-Plus在文生圖性能上已接近目前最優的MJ-V6和FLUX等模型。同時,視頻生成模型CogVideoX推出了性能更強的5B版本,被認爲是當前開源視頻生成模型中的最佳選擇。

image.png

最令人期待的是,智譜的清言APP即將推出"視頻通話"功能,這是國內首個面向C端開放的AI視頻通話功能。該功能跨越了文本、音頻和視頻三大模態,具備實時推理能力。用戶可以與AI進行流暢對話,即便頻繁打斷也能迅速反應。

更令人驚歎的是,只要打開攝像頭,AI就能看到並理解用戶所看到的畫面,同時準確執行語音指令。

這項革命性的視頻通話功能將於8月30日上線,首批面向清言部分用戶開放,同時接受外部申請。這一創新不僅展示了智譜AI的技術實力,也爲人工智能與日常生活的深度融合開闢了新的可能性。

參考資料:https://mp.weixin.qq.com/s/Ww8njI4NiyH7arxML0nh8w