浙江大学とvivoは共同で、画期的なビデオ仮想フィッティングモデル「MagicTryOn」を発表しました。この技術は、卓越した時空間的一貫性、衣服の詳細な忠実さ、そして汎用性において業界の注目を集めています。この革新的な技術は、画像やビデオでの試着だけでなく、複雑なシーンや大規模な動きの中でもリアルな服の効果を提供し、電子商取引、ファッション、そしてバーチャルコンテンツ制作に新たな可能性をもたらしています。
世界初の試み:拡散Transformerベースのビデオ試着フレームワーク
「MagicTryOn」は従来のU-Netアーキテクチャを捨て去り、先進的な拡散Transformer(DiT)技術を採用しています。これによりモデルの表現力が大幅に向上しました。完全な自己注意機構と組み合わせることで、このフレームワークはビデオの時間的および空間的な同時モデリングを達成し、動的なシーンにおける試着効果のスムーズさと一貫性を保証します。従来の手法と比べて、「MagicTryOn」はフレーム間のブレや衣服の詳細な損失を効果的に回避し、その生成効果は映画のようなクオリティと言えます。
多様な試着シナリオに対応、ダイナミックな表現力に驚き
「MagicTryOn」は画像試着、ビデオ試着、カスタマイズされた試着をサポートしており、静止画から動画まで、さまざまなシーンに対応しています。特に激しい動き(例えばダンス)や複雑な背景の中でも、衣服の自然なフィット感とダイナミックなリアルさを維持できます。さらに、その強力な汎用性により、人間だけでなく人形などの非標準的なオブジェクトにも仮想的な着せ替えを実現でき、クリエイティブなコンテンツ生成に多くの可能性を提供します。
新しいEC広告ツール:細部の忠実さで商業価値を高める
「MagicTryOn」は粗い部分から細かい部分までの衣服保存戦略とマスク認識損失最適化を通じて、衣服のテクスチャ、パターン、輪郭の忠実さを大幅に向上させました。実験では、このモデルはビデオ仮想試着(VVT)データセットにおいて既存技術を全て上回り、試着ビデオの効果はリアルかつ安定しています。この技術はEC広告やファッション展示に直接適用可能であり、実際の試着と製品の返品を削減し、ファッション業界の環境影響を軽減するとともに、オンラインショッピング体験を向上させることが期待されます。
オープンソースによる開発者への支援
「MagicTryOn」はApache2.0ライセンスのもとにHugging Faceプラットフォーム上でソースコード、事前トレーニング済みモデル、およびGradioデモインターフェースが公開され、全世界の開発者が無料で体験・利用することができます。この取り組みは、浙江大学とvivoがAI技術のオープンソース化におけるリーダーシップを示すものであり、EC、仮想現実、コンテンツ制作など様々な業界に新しいイノベーションの原動力を注入しました。
「MagicTryOn」の登場により、ビデオ仮想試着技術は新たな段階に突入しました。時空間の一貫性、動的適応、細部の忠実さという面での革新により、AI駆動型のファッションテクノロジーの新基準が確立されました。AIbaseによると、「MagicTryOn」はECやファッション業界のデジタルトランスフォーメーションを推進するだけでなく、バーチャルコンテンツの創出やメタバースアプリケーションにも長期的な影響を与えるでしょう。将来、さらなる技術詳細の公開やコミュニティの参加によって、このモデルの潜在力はさらに発揮されるでしょう。
プロジェクトURL: https://github.com/vivoCameraResearch/Magic-TryOn/