テンセントは正式に「混元世界モデル1.5(Tencent HY WorldPlay)」を発表しました。これは国内で初めて公開されたリアルタイムインタラクティブ体験プラットフォームです。このモデルは、簡単なテキストの説明や画像から、独自のインタラクティブな世界を迅速に生成できます。ユーザーはキーボード、マウス、またはコントローラーを使って、仮想カメラをリアルタイムで制御し、ゲームのように自由にAIが生成したシーンを探索することができます。

混元世界モデル1.5には3つの核心的な機能があります。まず、リアルタイムでのインタラクティブな生成能力で、独自のContext Forcing蒸留方式とストリーミング推論最適化により、モデルは24フレーム/秒で720Pの高解像度動画を生成できます。次に、長範囲の3D一貫性があり、ユーザーが特定の領域から離れて再び戻ったとき、モデルはその領域の3D構造を正確に「記憶」し、シナリオの一貫性を確保します。最後に、多様なインタラクティブな体験を提供し、さまざまなスタイルのゲームや現実のシナリオに適用でき、複数の視点切り替えやリアルタイムのテキストトリガーイベントをサポートしています。
今回の発表では、業界で最も包括的なリアルタイム世界モデルのトレーニングシステムを初めてオープンソース化しました。これはデータ、トレーニング、および推論デプロイメントの各段階をカバーしています。テンセントの混元チームは、技術報告書でモデルの事前学習、継続的学習、および自己回帰動画モデルの強化学習などの技術的詳細を詳しく説明しています。このモデルはNext-Frames-Predictionという視覚的な自己回帰タスクを採用しており、リアルタイム性と幾何学的一貫性の矛盾を打ち破り、世界モデリングに新たな可能性をもたらしました。
混元世界モデル1.5は技術的に突破を遂げただけでなく、AIが生成するコンテンツの未来に対してさらに広い想像力を開きました。今後のAIは、単なるテキスト、画像、または動画の生成にとどまらず、リアルタイムで探索・インタラクション可能な完全な仮想世界を創出できるようになります。このような新しいモデルは、ゲーム開発、映画制作、バーチャルリアリティなどの分野で幅広く応用されています。
オンライン体験サイト: https://3d.hunyuan.tencent.com/sceneTo3D?tab=worldplay
Githubリンク: https://github.com/Tencent-Hunyuan/HY-WorldPlay
Hugging Faceリンク: https://huggingface.co/tencent/HY-WorldPlay
プロジェクトページ: https://3d-models.hunyuan.tencent.com/world/
ポイント:
🌍 テンセントの混元世界モデル1.5は、テキストや画像を用いて迅速にインタラクティブな仮想世界を生成でき、リアルタイムで探索可能です。
🎮 モデルはリアルタイムのインタラクティブ性、長範囲の3D一貫性、そして多様なインタラクティブな体験を備えています。
🔧 初めてオープンソース化されたトレーニングシステムは、AIが生成するコンテンツの未来に新たな可能性を提供します。
