最近、小紅書は復旦大学と共同で、レイアウト制御生成(Layout-to-Image)分野における最新の研究成果「InstanceAssemble」を発表しました。この技術は、AI描画において長年課題とされてきた「構図の難しさ」を解決することを目的としており、シンプルなシーンから複雑なシーンに至るまで、正確な画像生成を実現するための革新的なメカニズムを備えています。関連論文は、人工知能分野の頂点であるNeurIPS2025に採択されています。

現在のAI描画分野では、「テキストから画像生成」はすでに高度に成熟していますが、「レイアウト制御生成」においては、AIがユーザーが指定した空間制約(境界ボックスやセグメンテーションマスクなど)に正確に従って物体を配置することが難しく、位置のずれや意味の乖離が起こることがあります。InstanceAssembleの登場により、AI描画は「正確な構図」の新しい段階に入りました。この技術は主流の拡散変換器アーキテクチャに基づいており、その中心には「インスタンスアセンブルアテンション」というメカニズムが導入されています。
ユーザーはこのツールを使用する際、各オブジェクトの具体的な位置(境界ボックス)と内容の説明を提供するだけで、AIは指定された領域に要件に合った画像を生成します。数個のオブジェクトしかない単純な画面でも、インスタンスが密集している複雑なシナリオでも、InstanceAssembleは非常に高いレイアウト精度と意味の一貫性を保つことができます。
注目すべきは、InstanceAssembleが軽量なアダプテーションの方法を採用していることです。全体の大規模モデルを再トレーニングする必要はなく、わずかな追加パラメータだけで既存のモデルに適応可能です。例えば、Stable Diffusion3-Mediumへのアダプテーションには約3.46%の追加パラメータで十分であり、Flux.1モデルへのアダプテーションでは、パラメータの割合はたったの0.84%にとどまります。
技術性能をよりよく評価するために、研究チームは同時に9万個のインスタンスを含む「Denselayout」というベンチマークテストセットおよび新しい評価基準も公開しました。現在、
github:https://github.com/FireRedTeam/InstanceAssemble
重要なポイント:
🎯 正確なレイアウトコントロール:「インスタンスアセンブルアテンション」メカニズムを通じて、AIがユーザーが設定した位置に従ってオブジェクトを生成し、疎なレイアウトから密集した複雑なレイアウトまで対応できます。
⚡ 非常に低いアダプテーションコスト:軽量設計を採用しており、全モデルの再トレーニングが必要ないため、Flux.1やSD3などの主要モデルへのアダプテーションには1%〜4%以下の追加パラメータで十分です。
🔓 完全なオープンソース共有:プロジェクトはGitHub上でオープンソースとなっており、事前学習済みモデルも提供され、新たなベンチマークテストセットDenselayoutも公開されており、業界の評価標準化を推進しています。
