最近、南洋理工大学、北京大学王選コンピュータ技術研究所および上海人工知能実験室の研究者たちは、「WORLDMEM」という長期間記憶を持つ世界モデルをオープンソースで公開しました。この新しいモデルは、視点の変化や時間の経過によっても3D空間の一貫性を維持できるようにすることを目的としており、ユーザー体験を大幅に向上させることを図っています。

image.png

WORLDMEMのコアは、革新的なメモリ機構です。この機構は、複数のメモリユニットを含むデータベースを構築し、それぞれのユニットには特定の時間に関連するシーン情報と状態データが保存されています。この機構により、モデルは過去に観測したシーンから情報を効果的に抽出し、視点や時間が変化した場合でも正確なシーンを再構築することが可能です。これにより、従来の短時間の文脈ウィンドウの制限を超えることができ、環境の詳細を長期的に保持することが可能になります。

新規シーンを生成する際、WORLDMEMのメモリ機構は膨大なメモリデータベースから現在のシーンに最も関連性のある情報を迅速に検索します。このプロセスには複雑な推論とマッチングが含まれ、抽出された情報が現在の時間、視点、シーンの状態と一致することを保証します。例えば、仮想キャラクターが環境内で移動した後、元の場所に戻った場合、モデルは以前のメモリフレームを迅速に見つけて、シーンの一貫性と整合性を確保します。

さらに、WORLDMEMは動的更新機能を持っています。仮想世界が進化するにつれて、新しいシーンと情報が継続的にメモリデータベースに追加されます。この特性により、モデルは最新の環境状態を正確に記録でき、シーン生成の質を向上させます。このモデルは条件付き拡散トランスフォーマーのアーキテクチャを採用しており、外部のアクション信号を統合して、仮想世界の第一人称視点の生成を実現しています。これにより、キャラクターが仮想環境内で柔軟に移動したり、インタラクティブに行動したりすることが可能になります。

WORLDMEMは拡散強制技術を使用してトレーニングされており、時間軸上で長期的なシミュレーションが可能です。このトレーニング方法により、シーン生成の整合性が保証され、モデルはさまざまなアクション命令やシーンの変化に対応できるようになります。アクション信号を埋め込み空間に投影し、ノイズ除去の時間ステップ埋め込みと組み合わせることで、モデルはアクション信号への反応能力を向上させています。

WORLDMEMのリリースは、仮想環境シミュレーション技術において重要な進歩であり、今後の仮想現実アプリケーションに対して強力な支援を提供しています。

オープンソースのURL: https://github.com/xizaoqu/WorldMem

ポイント:

🌍 WORLDMEMは、仮想環境における一貫性と整合性を向上させるオープンソースの長期間記憶を持つ世界モデルです。

🔍 モデルの核心的なメモリ機構は、シーン情報の効果的な保存と抽出が可能で、従来の方法の制限を突破しています。

🔄 WORLDMEMは動的更新機能を持っており、環境の変化に伴ってシーン生成の品質を継続的に最適化することができます。