正文

華爲昇騰攜手階躍星辰推出開源多模態模型，進軍 AI 新領域

發布於AI新閒資訊

時間 :Mar 10, 2025

閱讀 :1分鐘

近日，魔樂社區（Modelers）正式上線了由階躍星辰研發的 Step-Video 和 Step-Audio 兩款開源多模態大模型。這兩款模型分別用於視頻生成和語音交互，旨在爲開發者和企業用戶提供更強大的 AI 工具。

Step-Video 模型的全名爲 Step-Video-T2V，這是一款參數量高達300億的全球最大開源視頻生成模型。該模型能夠直接生成204幀、540P 分辨率的高質量視頻，並在指令遵循、運動平滑性、物理合理性以及美感等方面，表現超越了市場上現有的頂尖開源視頻模型。另一方面，Step-Audio 則是業內首款能夠生成多種情感、方言、語言、唱腔和個性化風格的語音的大模型。這一技術的發佈，標誌着 AI 語音交互領域的一次重要突破。

元宇宙科幻賽博朋克繪畫 (4)大模型

圖源備註：圖片由AI生成，圖片授權服務商Midjourney

值得一提的是，這些模型是基於華爲昇騰 CANN 異構計算架構和昇騰服務器進行適配的。開發者和企業用戶可以在魔樂社區中便捷地下載和體驗這些模型。爲了進一步降低使用門檻，魔樂社區還提供免費算力支持，讓用戶可以在線進行模型推理，而無需複雜的環境搭建，快速驗證他們的 AI 方案。

此外，階躍星辰的開源模型受到了多個行業標杆企業的關注，包括天數智芯、阿里雲、火山引擎、TCL 等各行各業的廠商已紛紛接入這一開源生態。未來，階躍星辰計劃在3月份推出新的圖生視頻模型，進一步豐富其產品線。

華爲昇騰與階躍星辰的這一合作不僅拓展了多模態 AI 模型的應用場景，也爲開發者提供了更爲強大的工具，推動了整個行業的技術進步。

英偉達推出統一音頻智能模型 Nemotron-Labs-Audex-30B-A3B

NVIDIA推出統一音頻-文本大模型Audex，基於純文本MoE架構，採用單一Transformer，解決多模態模型音頻增強導致文本邏輯下降的難題，實現高效音頻理解與文本能力的平衡。

Jul 8, 2026

210.7k

AI 視頻賽道格局重塑：谷歌 Gemini Omni Flash 登頂盲測榜首

谷歌DeepMind的文生視頻模型Gemini Omni Flash在權威盲測排行榜Video Arena中以1404Elo分躍居第一，彰顯谷歌多模態技術實力，也印證視頻生成領域正高速迭代。

Jul 3, 2026

264.3k

商湯科技祕密研發多模態模型“U1Pro”:由林達華牽頭，預計7月啓動內測對標OpenAI

商湯科技正祕密研發多模態大模型“U1Pro”，面向設計場景，由首席科學家林達華牽頭。該模型隸屬“日日新”家族，目標對標OpenAI的GPT-Image2，強調長程邏輯與思考能力，預計7月啓動內測並商用。

Jun 25, 2026

180.9k

重磅開源！原生多模態 LongCat-Next 發佈，讓視覺和語音成爲 AI 的“母語”

全球AI領域正經歷“AI母語”技術變革。針對當前大模型“語言中心、外掛視覺或語音”的拼湊架構，團隊發佈並開源了原生多模態大模型LongCat-Next及離散分詞器，旨在打破模態壁壘，讓AI像處理文字一樣理解物理世界。核心是通過重構底層架構實現突破。

Jun 4, 2026

367.2k

先理解再動手！字節開源統一框架 Bernini，讓 AI 視頻編輯告別“碰運氣”

字節跳動開源視頻生成與編輯統一框架Bernini，核心採用“先理解、再生成”的協同機制，解決傳統模型因無法精準理解複雜文本指令導致的畫面失控、幀間閃爍等痛點，突破主體變形、背景漂移等瓶頸。

Jun 3, 2026

259.6k

智啟未來，您的人工智能解決方案智庫