最近のテクノロジー界において、VAE(変分オートエンコーダー)は段階的に淘汰されるような状況に陥っている。中国清華大学と快手可靈チームが協力して開発した新しい生成モデル「SVG(VAEなしの潜在拡散モデル)」が登場した。この革新は、トレーニング効率で驚異的な6200%の向上を達成し、生成速度では3500%の飛躍を遂げた。

画像生成分野におけるVAEの衰退は、「意味の混合(セマンティックエントラップメント)」問題に起因している。つまり、画像中の特定の特徴(例えば猫の色)を単に変更しようとしても、他の特徴(体型や表情など)も影響を受け、生成された画像が正確でなくなることがある。この問題を解決するために、清華大学と快手のSVGモデルは異なるアプローチを採用し、意味と細部を融合した特徴空間を積極的に構築した。

image.png

SVGモデルの設計において、研究チームはまずDINOv3の事前学習モデルを意味抽出器として使用した。このモデルは大規模な自己教師あり学習を経ており、異なるカテゴリの特徴を効果的に識別・分離できる。これにより、従来のVAEモデルで見られる意味の混乱が解消された。また、細部の補完のために、軽量な残差エンコーダーを特別に設計し、細部情報が意味特徴と衝突しないようにした。重要な分布の整合化メカニズムにより、これらの特徴の融合が強化され、高品質な画像生成が可能となった。

image.png

実験結果によると、SVGモデルは生成品質と多タスクの汎用性において従来のVAE手法を全面的に上回っている。ImageNetデータセットでの実験では、SVGモデルはわずか80エポックの訓練でFID値(生成画像と本物の画像との類似度を測る指標)が6.57となり、同規模のVAEモデルよりも大幅に優れている。また、推論効率においてもSVGモデルは優れた性能を示しており、少ないサンプリングステップで明確な画像を生成できる。さらに、SVGモデルの特徴空間は画像分類やセマンティックセグメンテーションなどの視覚タスクに直接応用でき、追加の微調整を必要とせず、アプリケーションの柔軟性を大幅に向上させている。

清華大学と快手が開発したこの新技術は、画像生成分野に革命的な変化をもたらすだけでなく、マルチモーダル生成タスクにおいても大きな潜在力を秘めている。

論文のURL:https://arxiv.org/pdf/2510.15301