站長之家(ChinaZ.com)6月14日 消息:字節跳動發佈了新一代的Depth Anything V2深度模型,該模型在單眼深度估計領域實現了顯著的性能提升。與前一代Depth Anything V1相比,V2版本具有更精細的細節和更強的魯棒性,同時在效率上也有了顯著提高,比基於Stable Diffusion的模型快了10倍以上。

image.png

關鍵特點:

更精細的細節:V2模型在細節上進行了優化,提供了更精細的深度預測。

高效率與準確性:與基於SD構建的模型相比,V2在效率和準確性上都有顯著提升。

多規模模型支持:提供了不同規模的模型,參數從25M到1.3B不等,以適應不同的應用場景。

關鍵實踐:通過使用合成圖像替換真實圖像、擴大教師模型容量、利用大規模僞標註圖像教授學生模型等方法,提高了模型的性能。

提升模型性能的三個關鍵實踐:

合成圖像的使用:用合成圖像取代了所有標註的真實圖像,提高了模型的訓練效率。

教師模型容量擴大:通過擴大教師模型的容量,增強了模型的泛化能力。

僞標註圖像的應用:使用大規模僞標註的真實圖像作爲橋樑,教授學生模型,提高了模型的魯棒性。

廣泛應用場景的支持:

爲了滿足廣泛的應用需求,研究人員提供了不同規模的模型,並利用其泛化能力,通過度量深度標籤進行微調。

構建了一個多樣化的評估基準,包含稀疏深度註釋,以促進未來研究。

基於合成與真實圖像的訓練方法:

研究人員首先在合成圖像上訓練了最大的教師模型,然後爲大規模未標註的真實圖像生成了高質量的僞標籤,並在這些僞標記的真實圖像上訓練了學生模型。

訓練過程使用了595K合成圖像和62M+真實僞標記圖像。

Depth Anything V2模型的推出,展示了字節跳動在深度學習技術領域的創新能力,其高效和準確的性能特點預示着該模型在計算機視覺領域具有廣泛的應用潛力。

項目地址:https://depth-anything-v2.github.io/