2025年4月27日、AIbaseの報道によると、Stepfun AIチームが開発したStep1X-Edit画像編集モデルが近日正式にオープンソース化され、業界で大きな注目を集めています。この汎用的な画像編集フレームワークは、その卓越した性能と実用的なオープンソース特性により、GPT-4oやGemini 2 Flashなどのクローズドソースモデルに匹敵する可能性を示しています。
以下は、Step1X-Editの包括的な解説です。その技術的なハイライト、適用事例、将来的な影響などを網羅しています。
革新的な技術アーキテクチャ
Step1X-Editは、マルチモーダル大規模言語モデル(MLLM)と拡散トランスフォーマー(DiT)を組み合わせた技術を採用しています。ユーザーが提供する参照画像と編集指示を処理することで、高品質なターゲット画像を生成します。その中核となる革新は、マルチモーダル言語モデルのセマンティック理解能力と拡散モデルの画像生成能力を融合させた点にあります。潜在埋め込みを抽出し、拡散画像デコーダーと統合することで、多様な編集ニーズに正確に応答できます。
トレーニング過程では、100万枚を超える高品質な三元組(参照画像、指示、ターゲット画像)を含むデータパイプラインを構築し、11種類の編集タイプを網羅することで、複雑な状況下での堅牢性を確保しました。
GEdit-Bench:現実的なシナリオにおける評価基準
画像編集モデルの性能をより現実的に評価するために、Stepfun AIチームは新しいベンチマークGEdit-Benchを発表しました。このベンチマークは、現実世界のユーザー指示に基づいて設計されており、シンプルな色の調整から、複雑なオブジェクトの追加やシーンの再構築まで、幅広い編集シナリオを網羅しています。
実験結果によると、Step1X-EditはGEdit-Benchにおいて、既存のオープンソース基盤モデルを大幅に上回り、トップクラスのクローズドソースモデルに迫る性能を示しました。このベンチマークのオープンソース化は、画像編集分野の研究に、より現実的なニーズに沿った評価ツールを提供し、業界の評価基準の進歩を象徴しています。
オープンソースリソースと高性能
Step1X-Editのコード、モデルウェイト、GEdit-Bench評価データは、2025年4月25日にHugging FaceとModelScopeプラットフォームを通じて公開されました。モデルは単一のH800 GPU上で動作し、最適な生成品質を得るには80GBのメモリを推奨します。
512x512解像度の画像の場合、42GBのメモリで5秒以内に編集が完了します。1024x1024解像度の場合、50GBのメモリが必要で、所要時間は約22秒です。公式が提供する推論コードとインストールスクリプトにより、使用のハードルがさらに低くなり、Python 3.10以降のバージョンをサポートし、PyTorch 2.3.1および2.5.1などの主要なディープラーニングフレームワークと互換性があります。
幅広い適用分野
Step1X-Editの柔軟性と高精度により、様々なシナリオに適用できます。プロのデザイナーがクリエイティブな作品を最適化する場合でも、一般ユーザーが写真を美しくする場合でも、簡単な指示で複雑な編集を実現できます。
例えば、テキストの説明で背景の置換、オブジェクトの削除、スタイルの転送を行い、プロレベルの画像を生成できます。また、fal.aiなどのプラットフォームで既にオンラインデモが公開されており、ユーザーはオンラインで機能を試すことができます。このオープンソースモデルの公開は、コンテンツクリエイター、開発者、研究者にとって強力なツールを提供し、画像編集の普及と革新を促進します。
業界への大きな影響
Step1X-Editのオープンソース化は、画像編集技術の発展を促進するだけでなく、オープンソースコミュニティに新たな活力を注入します。専有データに依存するクローズドソースモデルとは異なり、Step1X-Editは透明性のあるトレーニングプロセスと高い再現性により、学術界と開発者に研究と最適化の基盤を提供します。
業界関係者は、このモデルの公開により、より多くの企業がオープンソースAIの商業化への道を模索し、同時にクローズドソースモデルのプロバイダーが性能の向上をさらに促進する可能性があると見ています。
今後の最適化と期待
Step1X-Editは既に強力な能力を示していますが、高いメモリ要求が一部ユーザーのアクセスを制限する可能性があります。今後、チームはモデルの効率を最適化し、ハードウェアのハードルを下げ、より多くの編集タイプと解像度をサポートする予定です。さらに、GEdit-Benchの継続的な更新により、評価シナリオがさらに充実し、業界で統一された性能基準を形成するのに役立ちます。AIbaseはStep1X-Editの進捗状況を継続的にフォローし、オープンソースAI分野の最新情報をお届けします。
体験アドレス:https://huggingface.co/spaces/stepfun-ai/Step1X-Edit