近日,香港大學與英偉達共同研發了一種新的視覺注意力機制,名爲廣義空間傳播網絡(GSPN),該機制在高分辨率圖像生成方面取得了顯著的突破。

傳統的自注意力機制雖然在自然語言處理和計算機視覺領域取得了不錯的效果,但在處理高分辨率圖像時卻面臨計算量巨大和空間結構損失的雙重挑戰。傳統的自注意力機制的計算複雜度爲 O (N²),這使得處理長上下文時非常耗時,並且將二維圖像轉化爲一維序列會導致空間關係的丟失。

image.png


爲了解決這些問題,GSPN 採用了創新的二維線性傳播方法,並結合 “穩定性–上下文條件” 理論,將計算複雜度降低到√N 級別,同時保留了圖像的空間連貫性。這種新的機制大幅提升了計算效率,並在多個視覺任務上刷新了性能紀錄。

GSPN 的核心技術包括兩大部分:二維線性傳播和穩定性 - 上下文條件。通過逐行或逐列的線掃描,GSPN 能夠實現對二維圖像的高效處理。與傳統的注意力機制相比,GSPN 不僅減少了參數量,還保持了信息的完整傳播。此外,研究人員還提出了穩定性 - 上下文條件,確保在長距離傳播時系統的穩定性與可靠性。

在實驗中,GSPN 展現出了卓越的性能。在圖像分類任務中,GSPN 在5.3GFLOPs 的計算量下,實現了82.2% 的 Top-1準確率,超越了多種現有模型。在圖像生成方面,GSPN 在處理256×256的任務時,生成速度提升了1.5倍。尤其在文本到圖像生成任務中,GSPN 能夠在16K×8K 分辨率下進行快速生成,推理時間加速超過84倍,展示了其在實際應用中的巨大潛力。

綜上所述,GSPN 通過獨特的設計理念和結構,使得視覺注意力機制在保持空間連貫性的同時,實現了計算效率的顯著提升,爲未來的多模態模型和實時視覺應用開闢了新的可能。

項目主頁: https://whj363636.github.io/GSPN/

代碼:https://github.com/NVlabs/GSPN

劃重點:

🌟 GSPN 通過創新的二維線性傳播機制,將高分辨率生成速度提升超過84倍。

💡 該機制解決了傳統自注意力在高分辨率圖像處理中的計算複雜度和空間結構損失問題。

🚀 GSPN 在多個視覺任務中刷新了性能紀錄,爲未來的應用提供了新方向。