在視頻分析領域,物體的持久性是人類理解物體即使在完全遮擋情況下依然存在的重要線索。然而,目前的物體分割方法大多隻關注可見(模態)物體,而缺乏對無模態(可見 + 不可見)物體的處理。
針對這一問題,研究人員提出了一種基於擴散先驗的兩階段方法Diffusion-Vas,旨在提升視頻無模態分割和內容補全的效果,能追蹤視頻中的指定目標,然後利用擴散模型補全被遮擋的部分。

該方法的第一階段涉及生成物體的無模態掩碼。研究人員通過將可見掩碼序列與僞深度圖結合,來推斷物體邊界的遮擋情況。僞深度圖是通過對 RGB 視頻序列進行單目深度估計得到的。這一階段的目標是確定物體在場景中可能被遮擋的部分,從而擴展物體的完整輪廓。
在第一階段生成的無模態掩碼基礎上,第二階段則負責對遮擋區域進行內容補全。研究團隊利用模態 RGB 內容,運用條件生成模型對遮擋區域進行填補,最終生成完整的無模態 RGB 內容。整個過程採用了一個以3D UNet 爲骨幹網絡的條件潛在擴散框架,確保了生成結果的高保真度。
爲了驗證其有效性,研究團隊在四個數據集上對新方法進行了基準測試,結果表明,較之於多種先進的方法,其在物體被遮擋區域的無模態分割上提高了多達13% 的準確率。尤其是在處理複雜場景時,研究方法展示了出色的穩健性,能夠有效應對強烈的相機運動和頻繁的完全遮擋。
這一研究不僅提升了視頻分析的精確度,也爲理解物體在複雜場景中的存在性提供了新的視角。未來,該技術有望被應用於自動駕駛、監控視頻分析等多個領域。
項目:https://diffusion-vas.github.io/
劃重點:
🌟 研究提出了一種新方法,通過擴散先驗實現視頻中的無模態分割和內容補全。
🖼️ 方法分爲兩階段,首先生成無模態掩碼,然後進行遮擋區域的內容補全。
📊 在多項基準測試中,該方法顯著提高了無模態分割的準確性,尤其在複雜場景下表現優異。
