在AIGC從“自由創作”邁向“精準控制”的關鍵階段,小紅書AIGC團隊今日開源其全新佈局可控圖像生成框架——InstanceAssemble,專爲解決高密度、多對象、複雜空間關係的Layout-to-Image任務而設計。該框架在保持極低參數增量(最低僅0.84%)的前提下,顯著提升生成圖像的空間對齊精度與語義一致性,爲電商、設計、遊戲等高要求場景提供工業級解決方案。

image.png

級聯建模 + Assemble-Attention,破解“多物堆疊”難題

傳統Layout-to-Image模型在面對“10個商品圖標+文字標籤+背景圖層”等複雜佈局時,常出現對象錯位、重疊或語義錯配。InstanceAssemble創新性採用級聯雙階段架構:  

1. 語義理解階段:解析文本描述與佈局指令的語義關聯;  

2. 空間組裝階段:通過自研Assemble-Attention機制,動態建模實例間相對位置、遮擋關係與層次結構,確保每個元素“該在哪,就在哪”。

實驗顯示,在密集商品展示、多角色插畫、UI界面生成等場景中,InstanceAssemble的對象定位準確率與邊緣清晰度顯著優於現有方法。

image.png

極輕量適配,兼容主流底模

爲降低部署門檻,框架採用超輕量LoRA適配器:  

- 適配Stable Diffusion3-Medium僅需3.46%額外參數;  

- 適配Flux.1模型更是低至0.84%。  

這意味着用戶無需重新訓練大模型,即可在保留底模強大生成能力的同時,靈活注入佈局控制能力,支持文本+參考圖+邊界框的多模態指令。

自建DenseLayout基準,推動評估標準化

爲精準衡量佈局對齊質量,小紅書同步發佈DenseLayout評測數據集與LGS(Layout Grounding Score)可解釋指標。LGS從位置精度、尺度匹配、語義一致性三個維度量化生成效果,解決傳統指標(如IoU)在密集場景下失真的問題。

AIbase認爲,InstanceAssemble的發佈,標誌着AIGC正從“畫得像”走向“擺得準”。當AI不僅能生成精美圖像,還能按設計師的精確佈局指令“擺放”每個元素,AIGC才真正具備嵌入專業生產流程的能力。而小紅書此次開源,不僅賦能社區創作者,更將推動整個行業向可控、可靠、可商用的生成式AI邁進。

論文鏈接:https://arxiv.org/abs/2509.16691

項目主頁:https://github.com/FireRedTeam/InstanceAssemble