近日,魔樂社區(Modelers)正式上線了由階躍星辰研發的 Step-Video 和 Step-Audio 兩款開源多模態大模型。這兩款模型分別用於視頻生成和語音交互,旨在爲開發者和企業用戶提供更強大的 AI 工具。
Step-Video 模型的全名爲 Step-Video-T2V,這是一款參數量高達300億的全球最大開源視頻生成模型。該模型能夠直接生成204幀、540P 分辨率的高質量視頻,並在指令遵循、運動平滑性、物理合理性以及美感等方面,表現超越了市場上現有的頂尖開源視頻模型。另一方面,Step-Audio 則是業內首款能夠生成多種情感、方言、語言、唱腔和個性化風格的語音的大模型。這一技術的發佈,標誌着 AI 語音交互領域的一次重要突破。

圖源備註:圖片由AI生成,圖片授權服務商Midjourney
值得一提的是,這些模型是基於華爲昇騰 CANN 異構計算架構和昇騰服務器進行適配的。開發者和企業用戶可以在魔樂社區中便捷地下載和體驗這些模型。爲了進一步降低使用門檻,魔樂社區還提供免費算力支持,讓用戶可以在線進行模型推理,而無需複雜的環境搭建,快速驗證他們的 AI 方案。
此外,階躍星辰的開源模型受到了多個行業標杆企業的關注,包括天數智芯、阿里雲、火山引擎、TCL 等各行各業的廠商已紛紛接入這一開源生態。未來,階躍星辰計劃在3月份推出新的圖生視頻模型,進一步豐富其產品線。
華爲昇騰與階躍星辰的這一合作不僅拓展了多模態 AI 模型的應用場景,也爲開發者提供了更爲強大的工具,推動了整個行業的技術進步。
