北京圖森未來科技有限公司於2024年12月17日正式發佈了其首款“圖生視頻”大模型——“Ruyi”,並將Ruyi-Mini-7B版本開源,以便用戶從huggingface平臺下載使用。圖森未來成立於2015年,總部位於美國加利福尼亞州聖迭戈,專注於AI技術在多個行業的應用,包括動畫遊戲和交通運輸行業。

Ruyi大模型專爲在消費級顯卡上運行而設計,提供詳盡的部署說明和ComfyUI工作流,以便用戶快速上手。該模型以其在幀間一致性、動作流暢性、色彩呈現和構圖方面的卓越表現,爲視覺敘事提供新的可能性,並針對動漫和遊戲場景進行深度學習,成爲ACG愛好者的理想創意夥伴。

微信截圖_20241217140324.png

Ruyi模型支持多分辨率、多時長生成,能夠處理從384×384到1024×1024的分辨率,任意長寬比,最長120幀/5秒的視頻生成。它還支持首幀、首尾幀控制生成,運動幅度控制,以及五種鏡頭控制。Ruyi基於DiT架構,由Casual VAE模塊和Diffusion Transformer組成,總參數量約爲7.1B,使用約200M視頻片段進行訓練。

儘管Ruyi在技術上取得了顯著進展,但仍存在一些缺陷,如手部畸形、多人時面部細節崩壞、不可控轉場等問題,圖森未來正在努力改進並在未來的更新中修復這些問題。

展望未來,圖森未來計劃持續深耕場景需求,實現直接生成CUT的突破,並在下一次發佈中提供兩個版本,以滿足不同創作者的需求。公司致力於利用大模型降低動漫和遊戲內容的開發週期和成本,Ruyi大模型已經能夠實現輸入關鍵幀後生成5秒內容,或輸入兩個關鍵幀由模型生成中間過渡內容,降低開發週期。

Hugging Face 鏈接 :

https://huggingface.co/IamCreateAI/Ruyi-Mini-7B