今日,階躍星辰與吉利汽車集團宣佈,聯合開源兩款階躍Step系列多模態大模型——Step-Video-T2V視頻生成模型和Step-Audio語音模型。

其中,階躍Step-Video-T2V視頻生成模型在參數量和性能上均處於全球領先水平。該模型擁有300億參數量,能夠直接生成204幀、540P分辨率的高質量視頻,確保生成內容信息密度高、一致性強。評測結果顯示,Step-Video-T2V在指令遵循、運動平滑性、物理合理性、美感度等方面均表現出色,顯著超越市面上既有的最佳開源視頻模型。

微信截圖_20250218085337.png

目前,這兩款模型均已在躍問App內上線,供開發者朋友們體驗並提供寶貴建議。

階躍Step-Video-T2V視頻生成模型在複雜運動、美感人物、視覺想象力等方面展現出卓越的生成能力。它能夠精準理解指令,高效助力視頻創作者實現創意呈現。無論是高雅優美的芭蕾舞、對抗激烈的空手道,還是緊張刺激的羽毛球、高速翻轉的跳水,Step-Video-T2V都能生成真實且符合物理規律的畫面。

同時,它還支持多種鏡頭運動方式和景別切換,能夠生成大幅度運鏡的視覺效果。生成的人物形象則更加逼真、生動,細節豐富,表情自然。

GitHub:

https://github.com/stepfun-ai/Step-Audio

Hugging Face:

https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b

技術報告:

https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf