正文

智譜多模態開源周圓滿落幕：四項視頻生成核心技術全面開放

發布於AI新閒資訊

時間 :Dec 12, 2025

閱讀 :1分鐘

在剛剛結束的智譜多模態開源週中，智譜團隊宣佈開源四項針對視頻生成的核心技術。這些技術不僅展示了智譜在多模態模型領域的最新進展，也爲視頻生成的未來發展奠定了堅實基礎。

在過去一週內，智譜 GLM 團隊先後發佈了多種多模態模型，涵蓋了視覺理解、設備操作和語音處理等領域。其中包括 GLM-4.6V 視覺理解模型、AutoGLM 設備控制模型、GLM-ASR 語音識別模型和 GLM-TTS 語音合成模型。這些技術的發佈，旨在讓大模型具備更接近人類的世界知識、記憶能力和複雜推理能力。

在開源周的最後一天，智譜團隊推出了四項新技術:SCAIL、RealVideo、Kaleido 和 SSVAE，專注於解決視頻生成領域的關鍵難題。這些技術涵蓋了精細化可控生成、複雜時空結構建模和大規模訓練成本控制等方面。

SCAIL 技術致力於影視級角色動畫生成，能夠精確控制複雜姿態，確保生成角色在運動中的結構完整性。RealVideo 則是一款實時流式視頻生成系統，大幅減少了生成延遲，僅需2-3秒即可完成視頻輸出，使得與 AI 角色的對話變得更加自然和流暢。

Kaleido 技術專注於多主體視頻生成，確保多個主體之間的一致性，避免了常見的特徵混淆問題。而 SSVAE 則通過優化訓練過程，提升了視頻生成模型的訓練效率，使得在相同質量下的收斂速度提高了三倍。

智譜團隊表示，開源這些技術希望能夠激發視頻生成技術社區的創新，爲開發者提供更多的工程方案和研究基礎。同時，智譜期待與更多開發者共同探索人工智能的未來，推動通用人工智能（AGI）的實現。

劃重點:
🌟 SCAIL:實現影視級角色動畫生成，支持複雜姿態控制。
⚡ RealVideo:實時視頻生成系統，生成延遲僅需2-3秒。
🎨 Kaleido:多主體視頻生成框架，確保主體一致性，避免特徵混淆。

騰訊混元多模態團隊再添強援，OpenAI 前研究員田永龍被曝加入

OpenAI前研究員田永龍已加入騰訊，或將擔任混元多模態模型負責人，主導視覺語言模型（VLM）研發。消息尚未官宣但備受業界關注，繼姚順雨之後，他成爲混元團隊引進的又一核心人才，顯示騰訊正加速強化多模態大模型領域的人才與技術佈局。

Jul 8, 2026

138.7k

生數 Vidu Q3 上線華爲雲，打造“爲劇而生”的視頻生成方案

華爲雲攜手生數科技，上線全球首個“爲劇而生”的視頻大模型Vidu Q3，主打文生視頻與圖生視頻一體化。該模型專爲企業營銷、影視及文創設計，核心優勢在於強大的敘事能力，可高效生成連貫視頻內容，助力創意快速落地。

Jun 23, 2026

182.7k

智譜GLM-5. 5 蓄勢待發：有望 8 月追趕全球頂尖大模型

智譜計劃8月發佈新一代基座大模型GLM-5.5，參數量有望破萬億，實現架構重大跨越。此舉正值美國限制Anthropic旗下Fable5與Mythos5模型訪問，這兩款模型長期盤踞全球榜首。國際大模型格局變動下，智譜藉此機遇加速突破，或填補市場空白。

Jun 23, 2026

265.1k

資本市場新寵：智譜市值突破萬億，國產大模型迎來高光時刻

6月22日，港股AI板塊發力，“全球大模型第一股”智譜股價盤中大漲超40%，最高見2980港元，成港股首隻穩居2000港元以上個股，總市值破萬億港元，較1月上市累升逾2000%。此輪暴漲受大模型賽道競逐及美國監管動態等熱點催化。

Jun 22, 2026

236.9k

國產多模態大模型迎來里程碑，MiniMax M3 正式開源且響應速度倍增

稀宇科技今日宣佈開源其原生多模態旗艦模型MiniMax M3，總參數428B，激活參數23B，爲行業首個此類模型。此前已開放權重併發布稀疏注意力機制論文，引發廣泛關注。該模型綜合性能在開源模型中排名第一。

Jun 16, 2026

4,083.7k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご