蘋果公司近期推出了其最新的視頻生成模型 STARFlow-V,該模型在技術上與市場上的競爭對手如 Sora、Veo 和 Runway 存在明顯差異。STARFlow-V 的設計重點在於增強長視頻片段的穩定性,它採用了 “歸一化流” 技術,而不是當前主流的擴散模型。

image.png

蘋果公司表示,STARFlow-V 是首個在視覺質量和生成速度上能夠與擴散模型相媲美的產品,儘管其輸出分辨率爲640×480像素,並且以每秒16幀的速度生成。與擴散模型通過多次迭代逐步去噪聲的方式不同,STARFlow-V 通過學習隨機噪聲與複雜視頻數據之間的直接數學變換,在單次訓練中完成視頻生成,極大提高了訓練效率,減少了步驟生成時可能出現的錯誤。

該系統能夠靈活處理多種任務,包括標準的文本轉視頻、圖像轉視頻(以輸入圖像作爲起始幀)以及視頻編輯等功能。針對超過訓練長度的視頻,STARFlow-V 採用了滑動窗口技術,生成一個片段後保留最後幾幀的上下文,並繼續生成。然而,演示片段的時間變化顯示出有限的多樣性。

在生成長序列時,通常面臨逐幀生成導致的錯誤累積問題。爲了解決這個問題,STARFlow-V 採用了雙重架構,一部分負責跨幀的時間序列管理,另一部分則專注於單幀的細節優化。爲了穩定優化過程,蘋果在訓練時加入了一定量的噪聲,儘管這可能導致視頻略顯顆粒,但並行的 “因果去噪網絡” 會在保留運動一致性的同時去除殘餘噪聲。

在訓練過程中,蘋果使用了7000萬對文本 - 視頻數據,結合了400萬對文本 - 圖像數據,利用語言模型將視頻描述擴展爲九種不同變體。經過幾周的訓練,模型的參數從30億增加到70億,並不斷提高分辨率和視頻長度。

儘管 STARFlow-V 在 VBench 基準測試中的得分爲79.7,略遜於一些領先的擴散模型,但其在自迴歸模型中的表現依然優異,展現出在空間關係和人類表現方面的顯著優勢。未來,蘋果將繼續致力於提高計算速度、優化模型和強調物理準確性的訓練數據。

劃重點:

🌟 STARFlow-V 使用歸一化流技術,提升長視頻片段生成的穩定性和效率。  

⚙️ 該模型支持多種視頻生成和編輯任務,展現出強大的靈活性。  

🚀 蘋果計劃在未來優化計算速度和物理準確性,持續推進視頻生成技術的發展。