近日,小紅書與復旦大學聯合發佈了在佈局控制生成(Layout-to-Image)領域的最新研究成果——InstanceAssemble。這項技術旨在解決 AI 繪畫中長期存在的“構圖難”問題,通過創新的機制實現了從簡單到複雜場景的精準圖像生成。據悉,相關論文已被人工智能頂級會議 NeurIPS2025收錄。

image.png

在目前的 AI 繪畫領域,雖然“文字生成圖像”已趨於成熟,但在“佈局控制生成”方面,AI 往往難以精確按照用戶給定的空間約束(如邊界框或分割掩碼)來擺放物體,經常出現位置對齊不準或語義脫節的情況。InstanceAssemble 的出現,標誌着 AI 繪畫進入了“精準構圖”的新階段。該技術基於主流的擴散變換器架構,核心在於提出了“實例拼裝注意力”機制。

用戶在使用該工具時,只需提供每個物體的具體位置(邊界框)和內容描述,AI 即可在指定區域生成符合要求的圖像內容。無論是僅有幾個物體的簡單畫面,還是實例密集的複雜場景,InstanceAssemble 都能保持極高的排版精度和語義一致性。

值得關注的是,InstanceAssemble 採用了輕量級的適配方案。它不需要對整個大模型進行重新訓練,僅需極少的額外參數即可適配現有模型。例如,適配 Stable Diffusion3-Medium 僅需約3.46% 的額外參數,而適配 Flux.1模型時,參數佔比更是低至0.84%。

爲了更好地評估技術性能,研究團隊還同步推出了包含9萬個實例的“Denselayout”基準測試集及全新的評估指標。目前,InstanceAssemble已在 GitHub 開源,代碼和預訓練模型均可供開發者下載使用,有望在設計、廣告及內容創意行業發揮重要作用。

github:https://github.com/FireRedTeam/InstanceAssemble

劃重點:

  • 🎯 精準排版控制:通過“實例拼裝注意力”機制,讓 AI 能夠嚴格按照用戶設定的位置生成物體,支持從稀疏到密集的複雜佈局。

  • 極低適配成本:採用輕量化設計,無需重訓全模型,僅需不足1% 至4% 的額外參數即可適配 Flux.1或 SD3等主流模型。

  • 🔓 全面開源共享:項目已在 GitHub 開源並提供預訓練模型,同時發佈了全新的測試基準集 Denselayout 以推動行業評估標準化。