隨着人工技術的飛速發展,人類似乎離電影《黑帝國》中的虛擬場景又近了一。近日,一個名爲 “The Matrix” 的 AI 基礎世界模擬器正式推出這一創新成果由一個全華人團隊,能夠實現無限生成高保真的720p真實場景視頻,並且支持實時交互。

該模擬器展示了一個14分鐘的演示視頻,實際上,它可以持續生成長達一個小時的內容,涵蓋沙漠、草原、水體和城市等多場景。在體驗過程中,用戶可以通過鍵盤的 WA、S、D 鍵進行實時控制,感受每秒16幀的動態畫面。

image.png

“The Matrix” 項目的開發團隊成員來自阿里巴巴、香港大學、滑鐵盧大學和加拿大 AI 研究機構 Vector Institute。他們命名爲 “The Matrix”,正是受到了電影中一句經典臺詞的啓發:這是你熟悉的世界;它現在只存在於我們稱之爲 Matrix 的神經交互模擬系統中。

提示詞:admin@matrix: The scene depicts an urban environment where a long, straight road stretches beneath an elevated highway or bridge, flanked by fences indicating construction or restricted access. The street is marked with two yellow lines, and massive concrete pillars support the roadway above, casting shadows below. On the left wall, red digital numbers are visible, possibly used for monitoring or alerts, accompanied by construction materials and barricades, signifying active development. On the right side, infrastructure and a neon blue 'PAWN SHOP' sign indicate nearby commercial activity. Beyond the overpass, the road leads to tall modern buildings, their illuminated windows showcasing the vibrancy of the city landscape. Streetlights and digital displays provide limited lighting, adding to the futuristic feel. Despite signs of activity, the road is devoid of vehicles or pedestrians, contributing to a sense of silence. The portion of the sky outside the bridge contrasts with the shadows cast beneath it, while the surrounding construction and advanced architecture create an atmosphere of a city that is both evolving and futuristic.

該項目的核心亮點在於其提供了前所未有的幀級控制,讓用戶的每一個操作都能得到即時響應,彷彿身臨其境。用戶可以在第一人稱或第三人稱視角下,體驗駕駛汽車穿越沙漠、森林或城市等不同場景。通過對3A 級遊戲如《極限競速:地平線5》和《賽博朋克2077》的數據訓練,這一系統能夠生成幾乎與現實無異的場景。更重要的是,用戶可以進行連續的視頻體驗,無縫地穿越各種環境。

除了能夠無限生成視頻和高質量的畫面之外,“The Matrix” 還具備了零樣本泛化的。這意味着,模擬器可以在沒有相應訓練數據的情況下,理解並預測不同環境中物體的行爲和交互。

該模擬的訓練數據主要來源於三款3A 遊戲的監督數據和大量現實場景的無監督視頻。與以往的研究不同,這一技術的創新在於它的學習能力,使其能在未見過的環境中進行準確的生成。

image.png

例如,模擬器可以展現 “寶馬 X3在環境中行駛場景,或是 “車在水中游泳” 的奇妙畫面從技術角度來看,“The Matrix” 核心由三個模塊構成:交互模塊、移窗去噪過程模型和流一致性模型。交互模塊負責理解用戶的輸入並整合到視頻生成中,而移窗去噪過程模型則使長視頻的生成變得可行,解決了傳統模型在長序列生成時的瓶頸。最後,流一致性模型的集成使得推理速度大幅提升,實現了實時生成。

項目負責人 Hongyang Zhang 和 Ruili Feng 表示,未來還會繼續推動這一技術的發展,力求爲用戶帶來更加逼真的虛擬體驗。

提示詞:The video features a close-up of a woman inside a car, wearing oversized sunglasses and dressed in black.

項目入口:https://thematrix1999.github.io/

論文:https://thematrix1999.github.io/article/the_matrix.pdf

劃重點:  

🌐AI版《黑客帝國》模擬器 “The Matrix” 問世,支持無限生成720p 視頻。  

🎮 用戶可實時控制視頻場景,體驗每秒16幀的動態畫面。  

🚀 該技術具備零樣本泛化能力,能夠預測不同環境中的物體行爲。