繼OpenAI的Sora震驚世界後,阿里巴巴的研究團隊再次爲我們帶來了驚喜 - Tora,這個基於軌跡的視頻生成新星,正在悄然改變我們對AI視頻創作的認知。

image.png

主要特點:

  • 高保真度:Tora生成的視頻質量堪比專業製作,無論是色彩、清晰度還是流暢度,都達到了一流的水準。

  • 運動控制:Tora能夠精確地控制視頻中的每一個動作,無論是快速的運動還是微妙的變化,都能準確呈現。

  • 多樣化輸入:無論是文本描述、靜態圖像還是動態軌跡,Tora都能夠靈活處理,滿足你的各種創意需求。

與傳統的U-Net架構不同,Tora採用了更爲先進的Diffusion Transformer(DiT)架構。這一創新使得Tora能夠輕鬆突破以往視頻生成的諸多限制,不僅可以生成長達60秒的高質量視頻,還能靈活應對不同的分辨率和縱橫比。更令人驚歎的是,Tora生成的視頻動作流暢自然,彷彿真實世界的完美復刻。

工作流程:

  • 軌跡編碼:Tora會將你提供的軌跡信息進行編碼,轉換成它能理解的格式。

  • 運動塊生成:通過3D變分自編碼器(VAE),將軌跡信息壓縮成運動潛在表示。

  • 運動融合:MGF將這些運動信息融合到DiT塊中,生成一段段符合軌跡的視頻。

Tora的核心優勢在於其獨特的設計理念。它巧妙地將文本、視覺和軌跡條件融爲一體,實現了對視頻內容的精準控制。通過大量實驗,研究人員證實Tora在保持高運動保真度的同時,還能細緻入微地模擬物理世界的運動規律。這一突破性成果,無疑爲未來的電影特效製作、虛擬現實等領域帶來了無限可能。

在與其他方法的對比中,Tora的優勢更加凸顯。它生成的視頻不僅流暢度更高,而且能夠嚴格遵循預設軌跡,避免了物體變形等常見問題,大大提升了視頻的保真度。這一優勢在長時間、高分辨率的視頻生成中尤爲明顯,Tora的軌跡精度甚至達到了其他方法的3到5倍之多。

以下是AIbase挑選的幾個官方演示視頻:

提示詞:寧靜的廣角鏡頭捕捉到一朵向日葵在微風中輕輕搖曳的畫面,背景是落日下廣闊的金色麥田。這一場景突出了向日葵的微妙運動,它高高聳立在無邊無際的麥海中,沐浴在日落溫暖的橙色光芒中。麥田的金色色調在暮色中閃閃發光,爲風景增添了深度和豐富性。當風吹過田野時,鏡頭停留在向日葵上,突出了它鮮豔的花瓣和種子的複雜細節。這段視頻沒有任何文字或附加對象,讓觀衆沉浸在寧靜的美麗和自然與光的和諧舞蹈中。

提示詞:一片楓葉從左到右優雅地飄落,背景是寧靜的湖水,四周環繞着一排生機勃勃的楓樹。視頻以精緻的細節捕捉了楓葉優雅飄落的畫面,在楓葉的輕柔運動和水面的靜止之間形成了鮮明的對比。楓葉飄落的場景散發出一種平靜的感覺。視頻只關注這一寧靜的時刻,沒有額外的文字或物體,創造了一種身臨其境的體驗,凸顯了大自然中動與靜的微妙平衡。

提示詞:一條鯽魚優雅地遊過火星紅色的岩石表面。視頻聚焦於鯽魚流暢的動作,與令人驚歎的火星景觀形成鮮明對比。水生生物與荒涼的火星地形的鮮明對比凸顯了夢幻般的氛圍,將觀衆帶入了這個超凡脫俗的場景。沒有額外的文字或物體,讓觀衆充分欣賞元素的有趣和意外融合。

提示詞:一羣海鷗優雅地翱翔在生機勃勃的海底世界,海底遍佈着色彩斑斕的珊瑚礁。視頻捕捉到了海鷗在水下飛翔的超現實組合,它們流暢的動作與周圍茂密的珊瑚形成鮮明對比。背景是一幅生動的海洋色彩掛毯,珊瑚搖曳生姿,營造出夢幻般的氛圍。場景中沒有額外的文字或物體,讓觀衆完全沉浸在鳥類優雅與水下奇觀的奇妙和諧融合中。

提示詞:一個肥皂泡輕輕飄浮,在盛開的野花叢中升起。視頻捕捉到了肥皂泡的精緻和彩虹般的自然,背景是美麗的花卉。五顏六色的野花在背景中輕輕搖曳,增強了肥皂泡的短暫之美。場景中沒有額外的文字或物體,讓觀衆完全沉浸在寧靜而迷人的瞬間中,凸顯了肥皂泡在充滿活力的自然環境中的脆弱和短暫的魅力。

Tora的成功不僅僅在於其卓越的性能,更在於其背後的技術創新。研究團隊巧妙地結合了OpenSora的DiT架構,同時引入了軌跡提取器(TE)和運動引導融合器(MGF)等創新模塊。這些精心設計的組件使得Tora能夠將任意軌跡編碼爲分層時空運動patch,並將其無縫集成到視頻生成過程中。

在實際應用中,Tora展現出了驚人的穩定性和適應性。無論是處理16幀的短視頻,還是長達128幀的複雜場景,Tora都能保持出色的表現。特別是在長時間序列的生成中,Tora的優勢更加明顯,它能夠有效控制軌跡誤差的增長,確保生成視頻的持續高質量。

項目地址:https://top.aibase.com/tool/tora