在視頻處理領域,如何從單鏡頭視頻中高效追蹤三維運動一直是一項難題,尤其是在需要對長序列進行像素級精確追蹤時。傳統方法面臨多重挑戰,往往只能跟蹤少量關鍵點,無法實現完整場景的細緻理解。

image.png

而且,現有技術的計算需求較高,難以在處理長視頻時保持效率。同時,長時間的跟蹤也會受到相機移動和物體遮擋等問題的影響,導致跟蹤失誤或錯誤的產生。

當前,視頻序列運動估計的方法各有優缺點。光流技術提供了密集的像素追蹤,但在複雜場景中,尤其是處理長序列時表現出韌性不足。

場景流則是對光流的擴展,通過 RGB-D 數據或點雲來估計密集的三維運動,但在長序列中仍然難以高效應用。點跟蹤方法雖然能夠捕捉運動軌跡,並結合了空間和時間注意力以實現更平滑的跟蹤,但由於計算成本較高,依然難以實現密集監測。再者,基於重建的跟蹤方法利用變形場來估計運動,但在實時應用中實用性不強。

60f40d8292cd71591253b91a2794ffee.png

近日,來自馬薩諸塞大學阿默斯特分校與 MIT-IBM 沃森人工智能實驗室以及 Snap Inc. 的研究團隊提出了 DELTA(Dense Efficient Long-range3D Tracking for Any video),這是一種專爲高效追蹤三維空間中每個像素而設計的方法。DELTA 通過低分辨率跟蹤開始,採用時空注意力機制,並應用基於注意力的上採樣器以實現高分辨率的準確性。其關鍵創新包括用於清晰運動邊界的上採樣器、高效的空間注意力架構以及增強跟蹤性能的對數深度表示。

DELTA 在 CVO 和 Kubric3D 數據集上取得了先進的效果,在平均 Jaccard(AJ)和三維平均位置差(APD3D)等指標上提升超過10%,在 TAP-Vid3D 和 LSFOdyssey 等三維點跟蹤基準中也表現出色。與現有方法不同,DELTA 在規模上實現了密集三維跟蹤,運行速度比以往方法快8倍以上,同時保持了業界領先的準確性。

通過實驗表明,DELTA 在三維跟蹤任務中表現優異,速度和準確度均超過了以往方法。DELTA 在 Kubric 數據集上訓練,包含超過5600個視頻,其損失函數結合了2D 座標、深度和可見性損失。

在基準測試中,DELTA 在長距離2D 跟蹤和密集3D 跟蹤上分別在 CVO 和 Kubric3D 中獲得了最高分,任務完成速度遠快於其他方法。DELTA 的設計選擇,如對數深度表示、空間注意力和基於注意力的上採樣器,顯著提高了其在各種跟蹤場景下的準確性和效率。

DELTA 是一種高效的方法,能夠在視頻幀中追蹤每個像素,在密集 D 和3D 跟蹤中取得了準確性和更快的運行時間。該方法在長時間遮擋的點上可能會面臨挑戰,最佳表現出現在幀數不超過數百的短視頻中。DELTA 的三維跟蹤準確性依賴於所使用的單目深度估計的精度和時域穩定性。預計單目深度估計的研究進展將進一步提升該方法的性能。

項目入口:https://snap-research.github.io/DELTA/

劃重點:

🌟 DELTA 是一種全新方法,專爲高效追蹤單鏡頭視頻中的每個像素而設計。  

⚡ DELTA 在 CVO 和 Kubric3D 數據集上取得領先結果,速度比傳統方法快8倍。  

🔍 該方法在長時間遮擋點上可能存在挑戰,但對短視頻表現優異。