Black Forest Labsは、FLUX.2シリーズを正式にリリースしました。プロ、フレックス、デブ、クレイン(近日公開)の4種類のモデルを一括りにリリースし、同時に32BパラメータのFLUX.2[dev]の重みとコードをオープンソース化しました。現在最も強力なオープンソースのテキストから画像生成および複数画像参照機能、4MP編集ツールであると称しています。

image.png

コアアップグレード  

- 10枚の画像参照:最大10枚のスタイル/構図サンプルを一度にアップロードし、一貫性が95%以上で、ポーズ、光の具合、カラーパレットのロックが可能です  

- 4MP編集:入力とマスクがあれば局所的な再描画、水印除去、背景変更が可能で、解像度は4MPにまで向上し、PSDのレイヤー出力はすでにロードマップに含まれています  

- テキストレンダリング:複雑なレイアウト、情報グラフィック、UIインターフェースの文字の正確率は92%で、DALL·E3より約10ポイント優れています  

- 現実的論理:空間関係、照明物理、世界知識の誤り率が37%低下し、イモやジョークの画像生成がより「信頼できる」ようになります。

image.png

4段階のモデル  

- pro:商業向けエースモデルで、速度は2倍になり、コストは30%低下し、公式では「オープンソースモデルの代替」と位置づけられています  

- flex:調整可能なステップ数/ガイド係数があり、開発者による二次調整に適しています  

- dev:32Bオープンソース重みで、テキストから画像生成と複数画像編集が一つに統合され、Apache2.0ライセンスです  

- klein:近日中にリリース予定の蒸留軽量版で、同等の性能でもパラメータが50%減少し、エッジデバイス向けです。

開発者親切  

- 新しいVAE自己符号化器:潜在空間の圧縮率が18%向上し、トレーニングと推論時のVRAMの節約が約15%です  

- サンプルコード:PyTorch、Diffusers、ComfyUIプラグインが即日リリースされ、GitHubリポジトリには導入スクリプトが公開されています  

- オンラインデモ:huggingface.co/spaces/BlackForestLabs/FLUX-2-dev でコードなしで体験できます。

業界への衝撃