テンセント混元は、カスタマイズ可能な画像生成プラグイン「InstantCharacter」のオープンソース化を発表し、オープンソースのテキストから画像生成モデル「Flux」との互換性を実現しました。このプラグインの登場は、画像生成技術におけるキャラクターの一貫性と生成精度の飛躍的な向上を示しており、コンテンツクリエイターにより効率的で柔軟な創作ツールを提供します。

InstantCharacterの最大の強みは、様々なシーンにおいてキャラクターの一貫性とリアルさを確保しつつ、高画質・高精度、そして柔軟なテキスト編集機能を備えている点です。ユーザーは簡単なプロンプトで、どんなキャラクターでも好きなポーズで、どこにでも登場させることができます。「キッチンでスプーンを持ってスープを飲んでいるウサギ」といった一枚の絵と短い説明だけで、それに対応する画像を生成できます。この機能は、複数回にわたるテキストから画像生成のシナリオにおいて特に重要であり、キャラクターの一貫性という課題を解決します。

微信截图_20250418113416.png

技術的な実現において、InstantCharacterはDiTモデルを用いて革新的なフレームワークを構築し、拡張可能なアダプターを導入、複数のtransformer encoderを採用することで、オープンな領域におけるキャラクターの特徴を効果的に処理し、最新の拡散変換器の潜在空間とシームレスに連携します。この設計により、システムは様々なキャラクターの特徴に柔軟に対応しながら、高い一貫性を維持できます。

このフレームワークを効果的にトレーニングするために、テンセント混元チームは、数千万サンプルを含む大規模なキャラクターデータセットを構築しました。データセットは、ペア(多視点キャラクター)と非ペア(テキスト-画像の組み合わせ)のサブセットに体系的に整理されており、同一性の一貫性とテキストの編集可能性を異なる学習経路を通じて同時に最適化できます。この二重データ構造の設計により、モデルの汎化能力と画像品質がさらに向上します。

実際の評価において、InstantCharacterの効果はGPT-4oなどの業界最先端モデルに匹敵します。様々なスタイルや複雑さの画像を処理でき、漫画や映画制作など幅広いシーンに適用可能です。InstantCharacterを使用することで、コンテンツクリエイターは生成されたキャラクターの高一貫性を維持し、ニーズに合った視覚作品をより効率的に制作できます。

- プロジェクト公式ウェブサイト:https://instantcharacter.github.io/

- コード:https://github.com/Tencent/InstantCharacter

- Hugging Faceデモ:https://huggingface.co/spaces/InstantX/InstantCharacter

- 論文:https://arxiv.org/abs/2504.12395