最近、InstantXチームは南京理工大学、北京航空航天大学、北京大学の研究チームと協力して、CSGOという新しいスタイル転送モデルを開発しました。このモデルは、特にコンテンツとスタイルの組み合わせにおいて、画像生成技術の向上を目指しています。

image.png

CSGOは主に3種類のスタイル転送モードをサポートします。詳細は以下のとおりです。

1、コンテンツ画像+スタイル参照画像:コンテンツのスタイル画像を合成します。下記の例では、スタイルを変更する必要がある元の画像(例:「クマ」「家」)と、スタイル参照画像を提供することで、元の画像のスタイルを参照画像のスタイルに変更できます。

image.png

2、スタイル参照画像+テキストプロンプト:テキストコンテンツのスタイル画像を合成します。下記の例では、スタイル参照画像とテキストプロンプト(例:「猫」「犬」「男性」「パンダ」)を提供することで、対応するコンテンツのスタイル画像を生成できます。

image.png

3、テキストを使用して画像内の特定のオブジェクトを編集します。

image.png

CSGOモデルの中核は、その独自のデータ構築プロセスにあります。研究チームは、データ生成と自動クレンジングのパイプラインを慎重に設計し、IMAGStyleという大規模なスタイル転送データセットを構築しました。このデータセットには21万個の画像トリプレットが含まれており、画像生成技術の研究と探求のための重要なリソースとなっています。

このモデルの設計理念は非常に斬新で、CSGOは画像生成プロセスにおいて、コンテンツとスタイルの特徴を明確に区別できます。研究者によると、このモデルの利点は、エンドツーエンドのトレーニング方法にあるとのことです。これは、推論段階で微調整を行う必要がないことを意味します。

同時に、CSGOモデルのもう一つの大きな特徴は、元のテキストから画像への生成能力を維持している点です。UNetはトレーニングされていません。これらの革新により、CSGOは画像駆動のスタイル転送、テキスト駆動のスタイル合成、テキスト編集駆動のスタイル合成を実現しています。

実験結果では、CSGOは非常に優れたパフォーマンスを示しました。研究者たちは、一連の定量的および視覚的な比較データを提供し、既存の最新の方法と包括的に比較することで、CSGOのスタイル制御能力における優位性を示しました。

要点:

🌟 CSGOモデルは革新的なデータ構築パイプラインを通じて、21万個の画像トリプレットを含むIMAGStyleデータセットの生成に成功しました。

🎨 このモデルはコンテンツとスタイルの明確な分離を実現し、画像駆動とテキスト駆動のスタイル転送を含む、さまざまな生成方法をサポートしています。

📊 実験結果は、CSGOがスタイル制御能力において既存技術を上回っており、画像生成の新境地を示していることを示しています。