在增強現實(AR)等應用中,手持物體的姿態估計是一項至關重要但頗具挑戰性的任務。近期,日本芝浦工業大學的研究團隊提出了一種基於 Vote 機制的多模態融合框架,顯著提高了這一領域的準確性,令人矚目地提升了13.9% 的姿態估計精度。

這一新方法的核心在於有效整合來自 RGB(顏色)和深度圖像的數據,特別是在手遮擋物體的情況下。研究團隊指出,現有的姿態估計技術往往在手部遮擋時遇到精度下降的難題,而手與物體之間的非剛性轉換則進一步加劇了這一問題。例如,當我們握住一個軟球時,手的力量會扭曲物體的形狀,導致估計變得更加複雜。

image.png

爲了解決這些挑戰,芝浦工大的團隊設計了一個創新的深度學習框架。該框架包含四個主要部分:從 RGB-D 圖像中提取高維特徵的主幹網絡、Vote 模塊、基於 Vote 的新型融合模塊以及手部感知物體姿態估計模塊。首先,研究者通過2D 和3D 骨架預測手和物體的關鍵點。隨後,各個骨幹中的 Vote 模塊獨立爲關鍵點進行投票,最後通過基於 Vote 的融合模型將投票結果整合。

這套新穎的 Vote 機制利用了局部信息並結合通道關注機制,動態地將 RGB 和深度數據結合,克服了手部遮擋和數據不對齊帶來的困難,從而實現了更加精準的手持物體姿態估計。此外,手感知物體姿態估計模塊通過自注意機制捕捉手與物體關鍵點間的複雜關係,進一步提高了估計精度。

研究者在多個公共數據集上進行了實驗,結果顯示,該框架的準確性和穩健性都有了顯著提高,最高可達15%。在實際應用中,框架實現了76.8% 的平均精度和僅40毫秒的推理時間,顯示出其良好的實用性和部署潛力。這一方法不僅提升了姿態估計的準確性,還爲 AI 系統在沉浸式 AR/VR 技術中的應用開闢了新的可能性。