字節跳動的大模型團隊又立了一功,他們的Depth Anything V2模型被蘋果公司收入了Core ML模型庫。這個成果不僅在技術上取得了突破,更讓人矚目的是,這個項目的領頭人,竟然是一位實習生。
Depth Anything V2是一個單目深度估計模型,它能夠從單張圖片中估算出場景的深度信息。這個模型從2024年初的V1版本到現在的V2,參數量從25M擴展到了1.3B,應用範圍覆蓋了視頻特效、自動駕駛、3D建模、增強現實等多個領域。
這個模型在GitHub上已經獲得了8.7k的Star,V2版本發佈不久就有2.3k Star,而V1版本更是收穫了6.4k Star。這樣的成績,對於任何一個技術團隊來說都是值得驕傲的,更何況這背後的主力是一位實習生。
蘋果公司將Depth Anything V2收入Core ML模型庫,這是對模型性能和應用前景的高度認可。Core ML作爲蘋果的機器學習框架,能夠讓機器學習模型在iOS、MacOS等設備上高效運行,即使在無互聯網連接的情況下也能執行復雜的AI任務。
Depth Anything V2的Core ML版本採用了至少25M的模型,經過HuggingFace官方工程優化,在iPhone12Pro Max上的推理速度達到了31.1毫秒。這與FastViT、ResNet50、YOLOv3等其他入選模型一起,涵蓋了從自然語言處理到圖像識別的多個領域。
在大模型的浪潮中,Scaling Laws的價值被越來越多的人認同。Depth Anything團隊選擇了構建一個簡單但功能強大的基礎模型,在單一任務上實現更好的效果。他們認爲,利用Scaling Laws解決一些基礎問題更具實際價值。深度估計作爲計算機視覺領域中的重要任務之一,從圖像中推斷出場景內物體的距離信息,對於自動駕駛、3D建模、增強現實等應用至關重要。Depth Anything V2不僅在這些領域有廣泛的應用前景,還能作爲中間件整合進視頻平臺或剪輯軟件中,支持特效製作、視頻編輯等功能。Depth Anything項目的一作是團隊的實習生,這位新星在Mentor的指導下,從項目設想到論文撰寫,不到一年時間就完成了大部分工作。公司和團隊提供了自由的研究氛圍和充分的支持,鼓勵實習生深入研究更難、更本質的問題。
這位實習生的成長和Depth Anything V2的成功,不僅展現了個人的努力和才華,也體現了字節跳動在視覺生成及大模型相關領域的深入探索和人才培養。
項目地址:https://top.aibase.com/tool/depth-anything-v2