近日,MiniMax 推出了其視頻人工智能模型 Hailuo02的第二代版本,帶來了性能和價格上的重大升級。這款新模型採用了一種名爲噪聲感知計算重分配(NCR)的架構,MiniMax 聲稱這一技術在訓練和推理效率方面提高了2.5倍。NCR 架構在處理長視頻序列時,根據訓練階段的不同採用了不同的方法。在訓練初期,數據中人工噪聲被大量引入,視頻被儘可能壓縮;而當訓練到視頻更清晰的階段時,模型則以全分辨率進行處理。

image.png

與之前的版本相比,Hailuo02的參數數量增加了三倍,訓練數據量也提升了四倍,MiniMax 還指出數據的質量和多樣性都有所改善。雖然公司沒有透露具體的參數數量或數據集規模,但他們表示 Hailuo02在處理複雜提示和模擬物理過程方面取得了顯著進展。MiniMax 還自豪地宣稱,Hailuo02是目前唯一能準確生成複雜場景(如體操動作)的模型。

image.png

Hailuo02有三種變體可供選擇:768p 六秒視頻、768p 十秒視頻以及1080p 六秒視頻。而之前的版本則僅限於720p、六秒的視頻,幀率爲25fps。在人工分析視頻競賽(Artificial Analysis Video Arena)基準測試中,Hailuo02在圖像到視頻類別中名列第二,僅次於字節跳動的 Seedance,並且領先於谷歌備受期待的 Veo3。然而,當前版本的 Veo3不支持音頻,這也是其吸引力的一大短板。

自去年八月發佈以來,已有超過37億個視頻通過 Hailuo 平臺創建。MiniMax 描述其初期推廣相對隨機,但很快便吸引了全球創作者的廣泛關注。用戶可以通過網頁界面、移動應用或 API 訪問該模型。對於 API 用戶,生成六秒的768p 視頻費用爲0.28美元,而1080p 版本的費用爲0.49美元。相比之下,使用谷歌 Veo3生成一段八秒的1080p 視頻可能需花費約3美元,具體費用取決於用戶選擇的計劃。

MiniMax 表示,他們正在努力改善生成速度、穩定性,並添加超出當前文本到視頻和圖像到視頻選項的新功能。與此相比,Runway 等競爭平臺已經提供了更先進的功能,比如跟蹤鏡頭。Hailuo02的發佈是 MiniMax 週期間的活動的一部分,期間該公司還推出了一個開源語言模型 MiniMax-M1,並附上了參數計數和技術論文。而關於 Hailuo02的訓練架構的具體技術細節,目前仍未公開。

劃重點:  

🌟 Hailuo02是 MiniMax 新發布的第二代視頻 AI 模型,使用噪聲感知計算重分配架構,訓練和推理效率提高2.5倍。  

💰 該模型提供更高分辨率和更長時長的視頻,且視頻生成費用遠低於谷歌的 Veo3。  

📊 自發布以來,Hailuo 平臺已生成超過37億個視頻,吸引了全球大量創作者。