在剛剛結束的智譜多模態開源週中,智譜團隊宣佈開源四項針對視頻生成的核心技術。這些技術不僅展示了智譜在多模態模型領域的最新進展,也爲視頻生成的未來發展奠定了堅實基礎。

在過去一週內,智譜 GLM 團隊先後發佈了多種多模態模型,涵蓋了視覺理解、設備操作和語音處理等領域。其中包括 GLM-4.6V 視覺理解模型、AutoGLM 設備控制模型、GLM-ASR 語音識別模型和 GLM-TTS 語音合成模型。這些技術的發佈,旨在讓大模型具備更接近人類的世界知識、記憶能力和複雜推理能力。

image.png

在開源周的最後一天,智譜團隊推出了四項新技術:SCAIL、RealVideo、Kaleido 和 SSVAE,專注於解決視頻生成領域的關鍵難題。這些技術涵蓋了精細化可控生成、複雜時空結構建模和大規模訓練成本控制等方面。

SCAIL 技術致力於影視級角色動畫生成,能夠精確控制複雜姿態,確保生成角色在運動中的結構完整性。RealVideo 則是一款實時流式視頻生成系統,大幅減少了生成延遲,僅需2-3秒即可完成視頻輸出,使得與 AI 角色的對話變得更加自然和流暢。

Kaleido 技術專注於多主體視頻生成,確保多個主體之間的一致性,避免了常見的特徵混淆問題。而 SSVAE 則通過優化訓練過程,提升了視頻生成模型的訓練效率,使得在相同質量下的收斂速度提高了三倍。

image.png

智譜團隊表示,開源這些技術希望能夠激發視頻生成技術社區的創新,爲開發者提供更多的工程方案和研究基礎。同時,智譜期待與更多開發者共同探索人工智能的未來,推動通用人工智能(AGI)的實現。

劃重點:

🌟 SCAIL:實現影視級角色動畫生成,支持複雜姿態控制。

⚡ RealVideo:實時視頻生成系統,生成延遲僅需2-3秒。

🎨 Kaleido:多主體視頻生成框架,確保主體一致性,避免特徵混淆。