1枚の画像から歩ける3D世界を生成！NVIDIAがオープンソースのLyra 2.0を公開し、長時間の空間忘却や時間のずれの問題を完全に解決

NVIDIA Research は近日、Hugging Face プラットフォームでLyra2.0フレームワークを正式に公開しました。このオープンソースプロジェクトは、AIによって生成される3D世界の構築技術が新たな高みに達したことを示しています。単一の入力画像から、持続的かつ一貫性のある大規模な3Dシーンを生成し、リアルタイムレンダリング、ロボットシミュレーション、没入型アプリケーションをサポートします。

AIbase編集部は、今回のリリースは動画生成モデルの時空間的一貫性を向上させただけでなく、物理AI、ゲーム開発、仮想環境構築において実用的なアセットパイプラインを提供していると評価しています。

核心的な課題と革新：空間記憶と時間漂移の克服

従来の長時間動画生成モデルでは、カメラが長距離移動する際に「空間忘却（spatial forgetting）」が発生することがあります。これは、モデルが以前に生成された領域の詳細を覚えられず、シーンの一貫性が失われる現象です。また、「時間漂移（temporal drifting）」も起こり、物体の位置や外観が時間とともに徐々に変化し、その後の3D再構築に大きな影響を与えます。

Lyra2.0はこれらの課題に対して革新的な解決策を提案します:

空間記憶メカニズム: システムは各フレームに対して3Dジオメトリ情報を維持しますが、これは情報ルーティングに使用されます。関連する過去のフレームを検索し、密接な対応関係を確立します。一方で、外観合成には強力な生成事前知識を使用し、ジオメトリの誤差が積み重なることを防ぎます。
自己強化トレーニング戦略: トレーニング中にモデルに自身が生成した劣化出力を提示し、漂移を修正する方法を学ばせることで、より長い3D一貫性を持つ動画軌跡を実現します。

この2段階設計により、Lyra2.0は単一の画像とユーザー定義のカメラ軌跡から、反復的に長期間の動画スニペットを生成し、それを信頼性高く高品質な3Dガウシアンスプラッティング（3D Gaussian Splatting）やメッシュモデルにアップグレードできます。リアルタイムレンダリングおよびさらなるシミュレーションをサポートします。

利用フロー：画像から探索可能な3D世界へ

画像を入力（テキストプロンプトを追加することも可能）;
インタラクティブな3Dブラウザでカメラの移動軌跡を定義;
モデルがカメラ制御に基づいて長時間のビデオスニペットを自己回帰的に生成;
ビデオシーケンスを明示的な3D表現（ポイントクラウド、ガウシアンまたはメッシュ）に昇格させ、継続的なナビゲーションに活用;
最終的にUnity、Unreal、Isaac Simなどの環境で直接使用可能なアセットとしてエクスポート。

実験結果によると、Lyra2.0はGEN3C、CaM、Yume-1.5など複数の既存手法よりも、長時間動画生成と3Dシーン再構築の指標で優れています。特にシーンの規模と一貫性において優れた性能を発揮します。生成されたシーンは数十メートルの範囲に及ぶため、ユーザーは自由に「戻って歩く」ことができ、周囲を見渡すことができ、さらにロボットを配置してリアルタイムでのインタラクションも可能です。

オープンソースと応用価値：物理AIと仮想世界開発の加速

Lyra2.0のモデルパラメータはHugging Face（nvidia/Lyra-2.0）で公開されており、コードリポジトリもGitHub（nv-tlabs/lyra）に掲載されています。Apache2.0ライセンスで商業利用が許可されています。ベースとなる動画の骨組みはWan-14Bなどの強力な拡散モデルであり、再構築段階ではDepth Anything V3などのツールを組み合わせて、高品質で実用的な出力を確保しています。

このフレームワークは特に以下のような用途に適しています:

embodied AIとロボットトレーニング：一貫性のあるシミュレーション環境を直接Isaac Simにインポート;
ゲームと没入型コンテンツ：迅速に探索可能な仮想世界を構築;
3Dアセット生成パイプライン：コンセプト図から編集可能なメッシュまで一括して完了。

初期バージョンと比較して、Lyra2.0はシーンの持続性と拡張性において大きな飛躍を遂げており、「ワールドモデル」がデモンストレーションから実用的なアセットへの道を開きました。

AIbase編集部コメント：NVIDIAによる今回のオープンソースは、生成型AIが時空間モデリングにおいて技術的な突破を遂げたことを示しており、業界がオープンエコシステムへの継続的な投資を行っていることも示しています。Lyra2.0などのツールが広く普及するにつれて、開発者はより効率的に大規模でインタラクティブな3D世界を構築できるようになり、ロボット、自動運転、メタバースの応用が加速されることになるでしょう。

プロジェクトページ、論文、モデルはすべて公開されています。興味のある開発者はすぐにHugging FaceとGitHubで体験できます。

論文のURL: https://huggingface.co/papers/2604.13036

モデルのURL: https://huggingface.co/nvidia/Lyra-2.0

1枚の画像から歩ける3D世界を生成！NVIDIAがオープンソースのLyra 2.0を公開し、長時間の空間忘却や時間のずれの問題を完全に解決

核心的な課題と革新：空間記憶と時間漂移の克服

利用フロー：画像から探索可能な3D世界へ

オープンソースと応用価値：物理AIと仮想世界開発の加速

関連推奨

NVIDIAがLyra2.0を発表：1枚の写真から90メートルの3D環境を生成、競合を上回る多数の指標

新たな都市ダイナミックシーン再構築技術OmniRe、車両や歩行者などの動的オブジェクトを追加

マスクがAIによる失業に対処するための全市民の高収入を提議し、専門家は反対意見を示す

イギリスのAI大臣ケンデル：仕事では人工知能に頼らず、プライベートでは積極的に利用

爱奇艺CEO龚宇：AI技術を活用した非中央集権化の転換を推進し、クリエイターが自主的に作品をアップロードすることを奨励する

1枚の画像から歩ける3D世界を生成！NVIDIAがオープンソースのLyra 2.0を公開し、長時間の空間忘却や時間のずれの問題を完全に解決

核心的な課題と革新：空間記憶と時間漂移の克服

利用フロー：画像から探索可能な3D世界へ

オープンソースと応用価値：物理AIと仮想世界開発の加速

関連推奨

NVIDIAがLyra2.0を発表：1枚の写真から90メートルの3D環境を生成、競合を上回る多数の指標

新たな都市ダイナミックシーン再構築技術OmniRe、車両や歩行者などの動的オブジェクトを追加

​マスクがAIによる失業に対処するための全市民の高収入を提議し、専門家は反対意見を示す

イギリスのAI大臣ケンデル：仕事では人工知能に頼らず、プライベートでは積極的に利用

爱奇艺CEO龚宇：AI技術を活用した非中央集権化の転換を推進し、クリエイターが自主的に作品をアップロードすることを奨励する

マスクがAIによる失業に対処するための全市民の高収入を提議し、専門家は反対意見を示す