Meta Reality Labs最近發佈了一款名爲“Sapiens”的人工智能模型,它在人類視覺任務處理上取得了重大突破。Sapiens模型專門設計用於分析和理解圖片或視頻中的人及其動作,經過在超過3億張人類圖像上的嚴格訓練,無論是在複雜環境還是數據稀缺的情況下,都能展現出卓越的性能。

Sapiens模型在超過3億張人類圖像的基礎上進行了訓練,展現出在複雜環境下處理人類視覺任務的卓越能力。其核心功能包括2D姿態估計、身體部位分割、深度估計和表面法線預測等。這些功能使Sapiens能夠精確識別人體姿勢,細緻區分身體各個部位,並能預測圖像中的深度信息和物體表面方向。

image.png

從技術角度來看,Sapiens採用了幾項先進方法。首先,它基於一個包含3億張圖像的大規模數據集進行預訓練,這爲模型提供了強大的泛化能力。其次,Sapiens採用了視覺變換器架構,能夠處理高分辨率輸入並進行細粒度推理。此外,通過遮掩自編碼器預訓練和多任務學習,Sapiens能夠學習魯棒的特徵表示,並同時處理多項複雜任務。

Sapiens的應用前景十分廣闊。在視頻監控和虛擬現實領域,它可以實時分析人體動作和姿勢,爲動作捕捉和人機交互提供支持。在醫療領域,Sapiens可以通過精確的姿勢和部位分析,輔助醫療專業人員進行病患監控和康復指導。對於社交媒體平臺,Sapiens可以用於分析用戶上傳的圖像,提供更豐富的互動體驗。在虛擬現實和增強現實領域,它有助於創建更爲逼真的人類形象,提升用戶的沉浸式體驗。

實驗結果顯示,Sapiens在多個任務上的表現超越了現有的最先進方法。無論是在全身、面部、手部和足部的關鍵點檢測,還是在身體部位分割、深度估計和表面法線預測任務中,Sapiens都展現出了高精度和一致性。

項目地址:https://about.meta.com/realitylabs/codecavatars/sapiens

論文地址:https://arxiv.org/pdf/2408.12569