今天,Wan2.5-Preview 正式發佈,這款全新的 AI 模型憑藉其革命性的架構和強大功能,旨在重塑視覺生成的未來。新模型在多模態處理、視頻生成和圖像編輯方面均取得了顯著突破。
原生多模態架構與深度對齊
Wan2.5-Preview 採用了全新的統一理解和生成框架,實現了對文本、圖像、視頻和音頻的靈活輸入與輸出。通過對這些模態數據進行聯合訓練,模型能夠實現更強的模態對齊,這是實現視聽同步和精確遵循指令的關鍵。此外,該模型還通過**人類反饋強化學習(RLHF)**進行優化,以確保生成的圖像質量和視頻動態符合人類審美偏好。

視頻功能:視聽同步與電影級美學
在視頻生成方面,Wan2.5-Preview 帶來了多項革新:
同步 A/V 生成:原生支持高保真、高一致性的視頻生成,並且能同步生成包括多人聲、音效和背景音樂(BGM)在內的音頻。
可控多模態輸入:用戶可以使用文本、圖像和音頻作爲輸入源,實現無限的創意組合。
電影級美學:模型生成的1080p 高清10秒視頻擁有強大的動態和結構穩定性,並升級了電影控制系統,可創作出具有電影美感的作品。
圖像功能:創意與精確控制
Wan2.5-Preview 在圖像生成和編輯方面也大幅提升:
高級圖像生成:模型顯著改進了對指令的遵循能力,能夠生成逼真的圖像、多樣的藝術風格、創意排版以及專業的圖表。
圖像編輯:支持對話式、基於指令的圖像編輯,並能實現像素級精度,用於多概念融合、材質轉換和產品顏色交換等複雜任務。
Wan2.5-Preview 的發佈標誌着 AI 視覺生成技術進入了一個新的階段,其強大的多模態能力和精確的控制功能,將爲開發者和創作者提供前所未有的工具。
