近日,清華大學的研究團隊開源了其最新的研究成果——Video-T1。這項技術的核心在於測試時縮放 (Test-Time Scaling, TTS),旨在通過在視頻生成過程的推理階段投入更多的計算資源,顯著提升生成視頻的質量和與文本提示的一致性,而無需重新進行昂貴的模型訓練。這一創新性的方法爲視頻生成領域帶來了新的可能性。

QQ_1742970490034.png

何爲“測試時縮放”?

在大型語言模型 (LLMs) 領域,研究人員已經發現,通過在測試階段增加計算量可以有效提升模型性能。Video-T1借鑑了這一思路,並將其應用於視頻生成領域。簡單來說,傳統的視頻生成模型在接收到文本提示後,會直接生成一段視頻。

而採用了 TTS 的 Video-T1,則像是在生成視頻的過程中進行多次“搜索”和“篩選”,通過生成多個候選視頻,並利用“測試驗證器”進行評估,最終選擇質量最高的視頻。這就像一位精雕細琢的藝術家,在完成最終作品前會嘗試多種不同的方法和細節。

Video-T1的核心技術

Video-T1並沒有直接增加訓練成本,而是專注於如何更有效地利用現有模型的能力。其核心方法可以理解爲在模型的“噪聲空間”中尋找更優的視頻生成軌跡。爲了實現這一目標,研究團隊提出了兩種主要的搜索策略:

隨機線性搜索 (Random Linear Search):這種方法通過隨機採樣多個高斯噪聲,讓視頻生成模型對這些噪聲進行逐步去噪,生成多個候選視頻片段,然後利用測試驗證器對這些候選視頻進行評分,最終選擇得分最高的視頻。

幀樹搜索 (Tree-of-Frames, ToF):考慮到同時對所有幀進行全步去噪會帶來巨大的計算成本,ToF 採用了一種更高效的策略。它將視頻生成過程分爲三個階段:首先進行圖像級別的對齊,這會影響後續幀的生成;其次,在測試驗證器中使用動態提示,重點關注運動的穩定性物理上的合理性,並根據反饋指導搜索過程;最後,評估視頻的整體質量,並選擇與文本提示對齊度最高的視頻。ToF 這種自迴歸的方式能夠更智能地探索視頻生成的可能性。

QQ_1742970605996.png

TTS 的顯著效果

實驗結果表明,隨着測試時計算量的增加(即生成更多候選視頻),模型性能會持續提升。這意味着,通過投入更多的推理時間,即使是同一個視頻生成模型,也能夠產生更高質量、與文本提示更加一致的視頻。研究人員在多個視頻生成模型上進行了實驗,結果都顯示出 TTS 能夠穩定地帶來性能提升。同時,不同的測試驗證器關注的評估方面有所不同,因此在性能提升的速率和程度上也存在差異。

Video-T1的 TTS 方法在常見的提示類別(如場景、物體)和容易評估的維度(如圖像質量)上取得了顯著的改進。通過觀察官方提供的視頻演示可以看出,經過 TTS 處理後的視頻在清晰度、細節和與文本描述的貼合度上都有明顯的提升。例如,描述“戴着太陽鏡在泳池邊當救生員的貓”的視頻,在經過 TTS 處理後,貓的形象更加清晰,救生員的動作也更加自然。

QQ_1742970632446.png

挑戰與展望

儘管 TTS 在許多方面都帶來了顯著的進步,但研究人員也指出,對於一些難以評估的潛在屬性,例如運動的流暢性時序上的一致性(避免畫面閃爍),TTS 的改進效果相對有限。這主要是因爲這些屬性需要對跨幀的運動軌跡進行精確控制,而目前的視頻生成模型在這方面仍然面臨挑戰。

清華大學開源的 Video-T1通過創新的測試時縮放策略,爲提升視頻生成質量提供了一種新的有效途徑。它無需昂貴的重新訓練,而是通過更智能地利用推理時的計算資源,讓現有模型煥發出更強的能力。隨着未來研究的深入,我們有理由期待 TTS 技術在視頻生成領域發揮越來越重要的作用。

項目:https://top.aibase.com/tool/video-t1