「自由創作」から「精密制御」へと進化するAIGCの重要な段階において、小紅書のAIGCチームは本日、新たなレイアウト対応画像生成フレームワークである「InstanceAssemble」をオープンソース公開しました。このフレームワークは、高密度で多様なオブジェクト、複雑な空間関係を持つレイアウトから画像へのタスクに特化して設計されています。極めて低いパラメータ増加率(最小で0.84%)を維持しつつ、画像の空間的な整合性と意味的な一貫性を大幅に向上させ、电商、デザイン、ゲームなど高い要件を求めるシーンに産業レベルの解決策を提供します。

image.png

段階的モデリング + Assemble-Attention、複数の物が重なった状況を解消

従来のレイアウトから画像へのモデルは、「10個の商品アイコン+テキストラベル+背景レイヤー」などの複雑な配置に対して、オブジェクトのずれや重なり、意味の不一致が起こりがちです。InstanceAssembleは独自の段階的二段構造を採用しています:

1. 語義理解段階:テキスト説明とレイアウト指示の語義的な関連性を解析します。

2. 空間構築段階:自社開発のAssemble-Attentionメカニズムを通じて、インスタンス間の相対位置、隠蔽関係、階層構造を動的にモデリングし、各要素が「ここにあるべき場所にいる」ことを確保します。

実験結果によると、密集した商品表示、多役割のイラスト、UIインターフェイス生成などのシナリオにおいて、InstanceAssembleのオブジェクトの位置精度とエッジの明確さは既存手法よりも優れています。

image.png

軽量な適合性、主流のベースモデルに対応

導入のハードルを下げるために、フレームワークは非常に軽量なLoRAアダプターを使用しています:

- Stable Diffusion3-Mediumに適合するにはわずか3.46%の追加パラメータが必要です。

- Flux.1モデルにはさらに低く、0.84%です。

これはユーザーが大規模なモデルを再トレーニングすることなく、ベースモデルの強力な生成能力を保持しながら、レイアウト制御機能を柔軟に追加できるということです。テキスト+参照画像+境界ボックスのマルチモーダルコマンドをサポートします。

自前のDenseLayoutベンチマーク、評価の標準化を推進

レイアウトの整合性品質を正確に測定するために、小紅書はDenseLayout評価データセットとLGS(レイアウト接地スコア)という説明可能な指標も同時に公開しました。LGSは位置の正確性、スケールの一致、意味の一貫性の3つの観点から生成効果を数値化し、密なシナリオにおける従来の指標(例: IoU)が誤差を生じる問題を解決します。

AIbaseによれば、InstanceAssembleの公開により、AIGCは「描きやすい」から「配置が正確」という段階へと進んでいます。AIが美しい画像を生成するだけでなく、デザイナーの正確なレイアウト指令に従ってそれぞれの要素を配置できるようになれば、AIGCは本格的に専門的な製品プロセスに組み込むことができるようになります。そして、小紅書が今回オープンソースとして公開したことは、コミュニティのクリエイターを支援するだけでなく、業界全体が制御可能で信頼性があり、商用可能な生成AIに向かって前進させるものとなります。

論文リンク:https://arxiv.org/abs/2509.16691

プロジェクトページ:https://github.com/FireRedTeam/InstanceAssemble