北京智譜華章科技有限公司於2025年1月16日宣佈推出一系列新模型,並在bigmodel.cn上線。繼8月推出「智譜清言」後,公司在語言、語音、圖像和視頻的理解與生成領域深入探索,推出了GLM-Voice、GLM-4V、CogView、CogVideoX等多模態模型。
此次發佈的全新端到端模型GLM-Realtime,實現了低延遲的視頻理解與語音交互,融入了清唱功能,並支持長達2分鐘的記憶及Function Call功能。公司還同步升級了GLM-4-Air和GLM-4V-Plus模型,致力於提供業界最強性能和性價比的語言模型解決方案。智譜始終致力於以先進的大模型技術回饋社會,特別設立了Flash全模態免費模型,涵蓋語言、文生圖、文生視頻及圖像理解等多個場景,助力開發者輕鬆實現應用創新。

GLM-Realtime在視頻通話上具備2分鐘的內容記憶能力,語音交互方面創新性地實現了清唱功能,讓大模型具備在對話中的歌唱能力。公司將Realtime API集成到智能眼鏡和陪伴娃娃中,以便用戶體驗近乎實時的智能助手交互。Realtime進一步支持Function Call功能,能夠依靠自身知識和能力,靈活調用外部知識和工具,拓展到更廣泛的商業場景。GLM-Realtime API已上線智譜開放平臺bigmodel.cn,現階段免費調用。
GLM-4-Air自上線以來以高性價比受開發者歡迎,此次全面升級爲GLM-4-Air-0111,通過優化訓練數據和流程,在某些維度性能接近規模更大的GLM-4-Plus,同時模型價格降至原來的50%,降低大模型應用門檻。視覺理解模型GLM-4V-Plus也全面升級,新版本在多個公開榜單上效果顯著提升,支持變分辨率功能,適應不同尺寸圖像輸入,小圖場景下顯著降低token消耗,支持4K超清圖像和極致長寬比圖像的無損識別,具備長達2小時的視頻理解能力,爲長視頻理解和分析提供高效精準解決方案。
智譜致力於大模型普惠,爲助力開發者創新,專門設置了針對全社會免費開放的Flash系列普惠模型API。作爲行業首個全模態的免費系列模型,開發者可免費調用語言、多模態理解、多模態生成功能。近期Flash系列將全面升級,成員包括語言模型GLM-4-Flash、圖像理解模型GLM-4V-Flash、圖像生成模型CogView-3-Flash、視頻生成模型CogVideoX-Flash。
