混沌世界モデル1.1が正式リリース：3D再構築技術を革新し、高品質なシーンを秒単位で生成

今日は、テンセントが混元世界モデル1.1（WorldMirror）を正式にリリースし、オープンソース化しました。この新しいバージョンは、マルチビューや動画入力のサポート、単一カードでのデプロイ、生成速度などにおいて大幅なアップグレードを行い、3D再構築技術の普及と応用に新たな扉を開きました。

混元世界モデル1.1は、強力な機能を持ち、専門的な3D再構築技術を一般ユーザーが簡単に使用できるツールにするために設計されています。このモデルは数秒で動画や画像からプロフェッショナルな3Dシーンを生成でき、3D再構築の効率と使いやすさを大幅に向上させました。前バージョンである混元世界モデル1.0は今年7月にリリースされ、業界初の伝統的なCGパイプラインに対応したオープンソースの歩行可能な世界生成モデルとなりました。新バージョンでは、マルチモーダル事前知識の注入とマルチタスク統一出力のエンド・トゥ・エンドの3D再構築が実現されました。

このモデルの3つの主要な特徴には、異なる入力を柔軟に処理すること、一般的な3D視覚予測、および単一カードでの秒単位の推論があります。混元世界モデル1.1はマルチモーダル事前知識ガイドメカニズムを採用しており、カメラポーズ、カメラ内パラメータ、深度マップなどの情報を注入することが可能で、生成された3Dシーンが幾何学的により正確になります。同時に、ポイントクラウド、深度マップ、カメラパラメータ、表面法線、新しいビュー合成などの多様な3Dジオメトリ予測を実現し、顕著な性能上の優位性を示しています。

従来の3D再構築方法と比較して、混元世界モデル1.1は純粋なフォワードアーキテクチャを使用しており、一度のフォワードパスですべての3D属性を直接出力することができ、処理時間を顕著に短縮します。典型的な8〜32ビュー入力の場合、モデルはわずか1秒で推論を完了し、リアルタイムアプリケーションのニーズを満たします。

技術アーキテクチャに関しては、混元世界モデル1.1はマルチモーダル事前知識のヒントと一般的な幾何予測アーキテクチャを採用し、コース学習戦略を組み合わせることで、複雑な現実環境でも効率的かつ正確な解析能力を維持しています。動的インジェクションメカニズムにより、モデルはさまざまな事前知識に柔軟に対応し、3D構造の一貫性と再構築品質を向上させています。

現在、混元世界モデル1.1はGitHub上でオープンソース化されており、開発者は簡単にリポジトリをクローンし、ローカルにデプロイできます。また、一般ユーザーはHuggingFace Spaceを通じてオンラインで体験でき、複数のビュー画像や動画をアップロードし、リアルタイムで生成された3Dシーンをプレビューできます。この技術のリリースは、3D再構築分野における重要な進展を示しており、今後仮想現実やゲーム開発などの業界をさらに促進していくことになります。

プロジェクトホーム:https://3d-models.hunyuan.tencent.com/world/
Githubプロジェクトアドレス:https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
Hugging Faceモデルアドレス:https://huggingface.co/tencent/HunyuanWorld-Mirror

混沌世界モデル1.1が正式リリース：3D再構築技術を革新し、高品質なシーンを秒単位で生成

関連推奨

腾讯元宝のPC版に録音ペン機能が追加：複数端末での同期と長時間音声の転写効率向上

TencentがユーザーのAIアシスタント「元宝」に関する疑問に応答し、その独立運営能力を強調

テンセントがAIアーキテクチャを全面的に再構築：3つの主要部門を設立、大規模モデル基盤を姚順雨氏が率いる

騰訊の大規模モデルアーキテクチャの重要なアップグレード：AI InfraとData部門の設立により、大規模モデルのトレーニングおよび推論のエコシステムを構築

テンセントがフェンユアン・ワールドモデル1.5を発表、リアルタイムでのインタラクティブな仮想世界を開く