近日,騰訊在人工智能領域再下一城,其研發團隊通過Hugging Face平臺正式發佈了全新AI模型GeometryCrafter。這一模型以其在開放世界視頻中實現一致性幾何估計的卓越能力,迅速成爲科技圈的焦點。藉助擴散先驗技術(Diffusion Priors),GeometryCrafter不僅爲視頻內容的深度理解和處理帶來了新的可能性,也爲創作者和研究者提供了一把探索三維世界的“鑰匙”。
GeometryCrafter的核心亮點在於其能夠從動態、複雜的開放世界視頻中提取並生成一致的幾何信息。所謂“開放世界視頻”,指的是那些內容多樣、場景切換頻繁、視角變化豐富的視頻素材,例如街頭實拍、旅行記錄或自然風光紀錄片。與傳統的靜態圖像幾何估計不同,這類視頻對AI模型的時空一致性和泛化能力提出了更高要求。騰訊團隊通過將預訓練的擴散模型與視頻幾何估計相結合,成功讓GeometryCrafter在無需額外信息(如相機位姿或光流數據)的情況下,生成細膩且連貫的深度序列和幾何結構。
據介紹,該模型的研發靈感源於擴散模型在圖像生成領域的成功經驗。擴散先驗技術通過逐步去噪的過程,能夠捕捉視頻幀間的微妙關聯,並將這些信息轉化爲三維空間的幾何表達。無論是城市街道上行人川流不息的動態,還是山川河流間光影交錯的自然景觀,GeometryCrafter都能以驚豔的精度還原其空間層次。這種能力不僅讓視頻內容從二維平面“躍然立體”,也爲後續的視覺特效、虛擬現實內容生成等應用奠定了堅實基礎。
業內專家指出,GeometryCrafter的發佈填補了開放世界視頻幾何估計領域的一項空白。此前,許多模型在處理長序列視頻或非受控場景時,往往因缺乏足夠的上下文理解而導致結果失真。而GeometryCrafter通過其獨特的三階段訓練策略,結合真實與合成數據集,既保留了內容的豐富多樣性,又確保了幾何細節的精確性。實驗結果顯示,該模型在多個公開數據集上的表現超越了現有方法,尤其是在保持長時間序列一致性方面,堪稱行業標杆。
對於普通用戶和創作者而言,GeometryCrafter的意義同樣深遠。想象一下,家庭錄像中的孩子奔跑畫面可以通過這一技術被賦予三維深度,甚至被無縫融入虛擬場景;抑或是一個獨立電影製作人,利用GeometryCrafter將簡單的拍攝素材轉化爲沉浸式的視覺體驗。騰訊此次選擇在Hugging Face上開源模型代碼和權重,也體現了其推動AI技術普惠化的決心,讓更多人能夠參與到這一技術的探索與應用中。
當然,GeometryCrafter並非完美無缺。有分析人士提到,其對計算資源的需求可能對普通設備構成挑戰,而在極端複雜的場景(如密集人羣或快速運動物體)中,模型的性能仍有優化空間。但不可否認的是,這一技術的推出爲我們打開了一扇窗,讓人們得以窺見AI如何將日常生活的片段轉化爲充滿立體感的數字藝術。
隨着GeometryCrafter的亮相,騰訊再次證明了其在AI領域的深厚積累與創新能力。從視頻內容的幾何重構到跨領域的潛在應用,這款模型不僅是一項技術突破,更是一個溫暖的邀請——邀請每一個人用科技的力量,去重新發現和塑造我們身處的這個多彩世界。
論文:https://huggingface.co/papers/2504.01016
模型:https://huggingface.co/TencentARC/GeometryCrafter