Google DeepMind は最近、一部のユーザーに新たな AI モデル Project Genie を公開しました。このツールは従来のコンテンツ生成の境界を突破し、ユーザーが単純なテキストの説明や静止画のアップロードのみで、即座にインタラクティブな仮想世界を構築でき、まるでゲームをプレイするように自由に探索できます。

Project Genie の裏には、複数の最先端の AI 技術が統合されています。これは Genie3 モデルを基盤とし、Nano Banana Pro 画像生成モデルおよび Gemini 多モーダルモデルと組み合わさっています。このコンビネーションにより、システムは自然言語のヒントを没入型のインタラクティブなシーンに変換でき、宇宙船を異星の惑星上空を飛ばすようなシナリオや、アマゾンの熱帯雨林を走るような場面も迅速に作成可能です。

image.png

リアルタイムでのインタラクション:画面だけでなく、「生きている」世界

動画生成とは異なり、Project Genie はリアルタイムでの反応能力を持っています:

  • リアルタイム生成: プレイヤーの操作(キャラクターの移動や視点の回転)に応じて、システムは画面フレームをリアルタイムでレンダリングします。

  • 深いインタラクション: シーン内の物体との相互作用をサポートしており、例えば紹介動画では青いボールが転がるときに草の色のトレースがリアルタイムで変化します。

  • カスタマイズ性: ユーザーは自分で描いたキャラクターや現実の写真を素材としてアップロードし、独自のインタラクションロジックを設定できます。

現在、Project Genie はまだ初期実験段階です。計算力などの要因によって、毎回の体験時間は60秒以内に制限されており、たまに技術的なバグが発生することもあります。しかし、DeepMind チームは今後、時間制限を越える方法を研究し、ユーザーに環境に対するより多くのコントロール権を与えることを目指しています。