北京智譜華章科技有限公司在2024年8月29日宣佈了一系列重要的技術更新,包括新一代基座模型的發佈和新的應用服務。
在KDD2024大會上,智譜發佈了包括語言模型GLM-4-Plus、文生圖模型CogView-3-Plus、圖像/視頻理解模型GLM-4V-Plus和視頻生成模型CogVideoX在內的新一代基座模型。這些模型在各自領域均達到了國際領先水平。
GLM-4-Plus模型在語言理解、指令遵循和長文本處理等方面性能全面提升,與GPT-4o等第一梯隊模型持平。CogView-3-Plus模型採用Transformer架構替代傳統UNet架構,優化了模型效果,性能接近MJ-V6和FLUX等一線水平模型。GLM-4V-Plus模型具備高質量的圖像理解和視頻理解能力,成爲國內首個通用視頻理解模型API。CogVideoX模型在發佈2B版本後,進一步開源了5B版本,性能增強,成爲當前開源視頻生成模型中的佼佼者。
此外,智譜在「清言APP」上推出了國內首個面向C端用戶的視頻通話服務,該服務跨越文本、音頻和視頻模態,並具備實時推理能力,爲用戶提供了流暢的互動體驗。
智譜還宣佈了GLM-4-Flash API的免費使用,該API在速度和性能上具有優勢,支持用戶快速且免費地構建專屬模型和應用。同時,爲了滿足不同用戶的需求,智譜提供了模型微調功能。
智譜表示將繼續前行,讓機器像人一樣思考,爲用戶帶來更先進的技術和服務。
主要更新:
語言基座模型GLM-4-Plus:在語言理解、指令遵循、長文本處理等方面性能得到全面提升,保持了國際領先水平。
文生圖基座模型 CogView-3-Plus:具備與當前最優的 MJ-V6 和 FLUX 等模型接近的性能。
圖像/視頻理解基座模型 GLM-4V-Plus:具備卓越的圖像理解能力,並具備基於時間感知的視頻理解能力。該模型將上線開放平臺(bigmodel.cn),併成爲國內首個通用視頻理解模型 API。
視頻生成基座模型 CogVideoX:在發佈並開源2B 版本後,5B 版本也正式開源,其性能進一步增強,是當前開源視頻生成模型中的最佳選擇。
「清言 APP」上線視頻通話:國內首個面向C端用戶開放的視頻通話服務,「清言 APP」的視頻通話功能跨越了文本、音頻和視頻模態,並具備實時推理能力。
GLM-4-Flash API:推理服務完全免費,並提供微調服務。
視頻通話服務申請鏈接:
https://zhipu-ai.feishu.cn/share/base/form/shrcnqpIx9q5ILEFeT2cPNhyuSf