近日,谷歌深度學習團隊和多所大學的研究人員聯合發佈了一項名爲 “MegaSaM” 的新系統,該系統能夠從普通的動態視頻中快速、準確地估計相機參數和深度圖。這一技術的問世,將爲我們在日常生活中錄製的視頻帶來更多的可能性,特別是在動態場景的捕捉與分析方面。

image.png

傳統的運動結構重建(Structure from Motion,SfM)和單目同步定位與地圖構建(SLAM)技術,通常需要輸入靜態場景的視頻,並且對視差的要求較高。面對動態場景,這些方法的表現往往不盡如人意,因爲在缺乏靜態背景的情況下,算法容易出現錯誤。儘管近年來一些基於神經網絡的方法試圖解決這一問題,但這些方法往往計算開銷巨大,且在動態視頻中,尤其是當攝像機運動不受控制或者視場未知時,穩定性欠佳。

MegaSaM 的出現,改變了這一局面。研究團隊通過對深度視覺 SLAM 框架進行精心的修改,使其能夠適應複雜的動態場景,尤其是在攝像機路徑不受限制的情況下。經過一系列的實驗,研究人員發現 MegaSaM 在相機姿態和深度估計方面,顯著優於以往的相關技術,並且在運行時間上也表現出色,甚至可以與某些方法相媲美。

該系統的強大功能,使其能夠處理幾乎任何視頻,包括那些在拍攝過程中可能存在劇烈運動或者場景動態的隨意錄像。MegaSaM 在約0.7幀每秒的速度下,處理源視頻的結果,展現出其卓越的性能。研究團隊還在他們的畫廊中展示了更多處理結果,以證明其在實際應用中的有效性。

這一研究成果不僅爲計算機視覺領域帶來了新鮮血液,也爲廣大用戶在日常生活中的視頻處理提供了新的可能性,期待未來能夠在更多場景中看到 MegaSaM 的身影。

項目入口:https://mega-sam.github.io/#demo

劃重點:

🌟 MegaSaM 系統能夠從普通動態視頻中快速、準確地估計相機參數和深度圖。  

⚙️ 該技術克服了傳統方法在動態場景中的不足,適應複雜環境的實時處理。  

📈 實驗結果顯示,MegaSaM 在準確性和運行效率上均優於以往技術。