在圖像生成領域,多層圖像生成技術正逐漸改變用戶與生成模型的互動方式,允許用戶隔離、選擇並編輯特定的圖像層。近日,微軟研究人員推出了一種名爲 “Anonymous Region Transformer”(ART)的新型技術,它能夠根據全球文本提示和匿名區域佈局,直接生成可變多層透明圖像。

ART 的設計靈感來源於 “圖式理論”,通過採用匿名區域佈局,使生成模型可以自主決定哪些視覺信息與哪些文本信息對齊。這一方法與以往的語義佈局形成鮮明對比。傳統的語義佈局通常需要明確的對應關係,而 ART 的匿名區域佈局則提供了更大的靈活性。
值得注意的是,ART 引入了一種逐層區域裁剪機制,該機制只選擇與每個匿名區域相關的視覺信息,從而顯著降低了注意力計算的成本。這種方法不僅加快了生成速度,使其比全注意力方法快12倍以上,還有效減少了圖層之間的衝突,能夠處理50個以上不同層次的圖像生成。
此外,ART 還提出了一種高質量的多層透明圖像自編碼器,支持以聯合方式直接編碼和解碼可變多層圖像的透明度。這一創新設計爲精確控制和可擴展的層生成提供了新的可能性,進一步推動了交互式內容創作的發展。
項目:https://art-msra.github.io/
劃重點:
🌟 ART可根據全球文本提示和匿名區域佈局,直接生成多層透明圖像。
⚡️ 採用逐層區域裁剪機制,顯著提高了圖像生成效率,比傳統方法快12倍。
💡 新型高質量自編碼器支持多層透明圖像的精確控制與生成,推動交互式內容創作。
