你是不是已經看慣了那些由AI生成的,雖然逼真但總感覺少了點“味道”的短視頻?現在,一項名爲長上下文調整 (Long Context Tuning, LCT) 的創新技術橫空出世,它讓AI視頻生成模型擁有了執導多鏡頭敘事視頻的能力,如同電影和電視劇那樣,在不同鏡頭之間自由切換,構建出更連貫、更引人入勝的故事場景。

image.png

過去,頂尖的AI視頻生成模型,比如SoRA,Kling,Gen3,已經能夠創造出長達一分鐘的逼真單鏡頭視頻。但這與真實世界中,由多個鏡頭組成的敘事視頻(比如電影中的一個場景)的需求之間存在巨大的鴻溝。一個電影場景通常由一系列捕捉同一連貫事件的不同單鏡頭視頻組成。

例如,在電影《泰坦尼克號》中,傑克和露絲在甲板上相遇的經典場景就包含了四個主要的鏡頭:傑克回頭的特寫、露絲說話的中景、露絲走向傑克的廣角鏡頭,以及傑克從背後擁抱露絲的特寫。生成這樣的場景,需要確保視覺外觀(如人物特徵、背景、光線和色調的一致性)和時間動態(如人物動作的節奏和相機運動的平滑度)在不同鏡頭之間保持高度的連貫性,從而保證敘事的流暢性。

爲了彌合單鏡頭生成和多鏡頭敘事之間的差距,研究人員提出了多種方法,但大多存在侷限性。一些方法依賴於輸入關鍵的視覺元素(如人物身份和背景)來強制保持跨鏡頭的視覺一致性,但難以控制光線和色調等更抽象的元素。另一些方法則先生成一組連貫的關鍵幀,再利用圖像到視頻(I2V)模型獨立合成每個鏡頭,這又難以保證鏡頭之間的時間一致性,並且稀疏的關鍵幀也限制了條件的有效性。

而LCT的出現,正是爲了解決這些難題。它就像給預訓練的單鏡頭視頻擴散模型安裝了一個“超強大腦”,使其能夠處理更長的上下文信息,直接從場景級別的視頻數據中學習鏡頭間的連貫性。LCT的核心在於以下幾個創新設計:

全注意力機制的擴展:LCT將原本應用於單個鏡頭的全注意力機制擴展到包含場景內的所有鏡頭。這意味着模型在生成視頻時,能夠同時“關注”整個場景的所有視覺和文本信息,從而更好地理解和維護跨鏡頭的依賴關係。

交錯的3D位置嵌入:爲了讓模型能夠區分不同鏡頭中的token(文本和視頻的基本單元),LCT引入了一種交錯的3D旋轉位置嵌入(RoPE)。這就像給每個鏡頭和其內部的token都打上了獨特的“標籤”,使得模型既能識別每個鏡頭的獨立性,又能理解它們在整個場景中的相對位置關係。

異步噪聲策略:LCT創新性地爲每個鏡頭應用獨立的擴散時間步。這使得在訓練過程中,模型能夠學習不同鏡頭之間的動態依賴關係,並更有效地利用跨鏡頭的信息。例如,當一個鏡頭的噪聲水平較低時,它可以自然地作爲視覺信息的豐富來源,指導其他噪聲較高的鏡頭的去噪過程。這種策略也爲後續的視覺條件輸入和聯合生成提供了便利.

實驗結果表明,經過LCT調整的單鏡頭模型在生成連貫的多鏡頭場景方面表現出色,並展現出一些令人驚喜的新能力。例如,它可以根據給定的角色身份和環境圖像進行組合生成,即使模型之前沒有接受過此類任務的專門訓練。此外,LCT模型還支持自迴歸的鏡頭擴展,無論是連續的單鏡頭延伸還是帶有鏡頭切換的多鏡頭擴展都可以實現。這項特性對於長視頻的創作尤其有用,因爲它將長視頻生成分解爲多個場景片段,方便用戶進行交互式修改。

更進一步,研究人員還發現,在LCT之後,具有雙向注意力的模型可以進一步微調爲上下文因果注意力。這種改進的注意力機制在每個鏡頭內部仍然保持雙向關注,但在鏡頭之間,信息只能從先前的鏡頭流向後續鏡頭。這種單向的信息流使得在自迴歸生成過程中可以高效地利用KV-cache(一種緩存機制),從而顯著降低計算開銷。

如圖1所示,LCT技術可以直接應用於短片製作,實現場景級的視頻生成。更令人興奮的是,它還催生了交互式多鏡頭導演、單鏡頭擴展以及零樣本的組合生成等多種新興能力,儘管模型從未針對這些特定任務進行過訓練。如圖2展示了一個場景級視頻數據的示例,它包含全局提示(描述角色、環境和故事梗概)以及針對每個鏡頭的具體事件描述。

總而言之,長上下文調整(LCT) 通過擴展單鏡頭視頻擴散模型的上下文窗口,使其能夠直接從數據中學習場景級的連貫性,爲更實用的視覺內容創作開闢了新的道路。這項技術不僅提升了AI生成視頻的敘事能力和連貫性,也爲未來的長視頻生成和交互式視頻編輯提供了新的思路。我們有理由相信,未來的視頻創作將因爲LCT等技術的進步而變得更加智能化和更具創造力。

項目地址:https://top.aibase.com/tool/zhangshangxiawentiaoyoulct

論文地址:https://arxiv.org/pdf/2503.10589