一枚の写真とスマートフォンがあれば、AIが作り出す世界を散歩できます。

4月27日、アリババ・レーディング(アリババグループ傘下)の「レーディング・アプリ」が「世界モデルを体験する」機能を正式リリースし、業界で最初にモバイル端末で世界モデルを体験できるAGI製品となりました。ユーザーは1枚の画像をアップロードするだけで、スマートフォンで最大60秒間3D世界を探索でき、ゲームのように操作して移動しながら探索することが可能です。コマンドの起動から探索が始まるまで、わずか数秒で実現します。これは業界初となる端末側での世界モデルの実行であり、分単位の長時間の一貫性とリアルタイムでインタラクティブな体験は、AGI製品の新たな基準を築きました。レーディングは常に知能の境界を探究しており、以前には「スイフト・アプリ」機能をリリースし、スマートフォン上で30秒以内にアプリを生成するという先駆的な取り組みを実施し、一般ユーザーにWish Codingを広めました。

image.png

(図説:スマートフォンでレーディングアプリを開き、左下の「+」をタップして画像をアップロードし、「画像の中の世界を生成」をクリックすれば、世界モデルを体験できます)

世界モデルはAGI(汎用人工知能)への重要な道のりの一つであり、デジタル世界と物理世界をつなぐ重要な橋渡しです。今回のレーディングアプリの「世界モデルを体験する」機能は、アリババのレーボー・リンゴット・ワールド・ファスト世界モデルに接続されており、このモデルはすでにオープンソース化されています。

レーディングアプリはユーザーに世界モデルを簡単に体験できるエントリーポイントを提供しています。レーディングアプリを開き、チャット窓に画像をアップロードすると、システムは操作コマンドを自動的に推奨し、ユーザーは「画像の中の世界を生成」を選択します。あるいは、「第一人称の視点でこの世界を探索してください」といった自然言語を入力するだけでも、システムは自動的に世界モデル生成プロセスに入ります。コマンドの起動から探索が始まるまで、わずか数秒で実現します。

世界モデルの体験ページに入ると、レーディングアプリはモバイルユーザーの操作習慣に基づいて丁寧に設計され、画期的にゲーム用のスティック操作方式を導入し、ユーザーが最も慣れ親しんだ方法でAIが即座に生成した3D世界を探索できるようにしました。具体的には、画面左側のスティックが3Dシーン内のキャラクターの移動を制御し、前後左右に自由に歩くことができます。右側のスティックは視角の回転を制御し、全方位に探索が可能になります。この操作ロジックは主流の3Dゲームと非常に似ており、プレイヤーは追加の学習なしにすぐに操作ができ、まさに「ゼロ障壁の没入感」を実現しています。

世界モデルのモバイル端末への展開は、業界では有名な難題です。計算能力の要件が高く、遅延制御が難しい、端末性能が一様ではないなど、すべてが現実的な工学的課題です。レーディングチームは効率的で低遅延のストリーミング伝送技術を使用し、百ミリ秒以下の応答遅延を実現し、ユーザーがコマンドを起動してから3D世界を探索するまでわずか数秒で実現し、これまでの世界モデル「高コスト、高計算量、実装困難」という刻板印象を打ち破りました。

レーディングアプリの責任者である蔡偉氏は、「世界モデルを体験する機能は、レーディングが知能の境界を探究する新たな実践です。以前にレーディングがリリースした「スイフト・アプリ」機能は、自然言語を使って30秒以内にアプリを生成することができ、本来専門開発者だったコーディング能力を一般ユーザーに提供しています。レーディングは継続的に知能の境界を探究し、ユーザーが満たされていないニーズを探し出し、良いAIの体験をすべての人々にもたらしたいと考えています」と語っています。

現在、ユーザーは主要なアプリストアからレーディングアプリをダウンロードし、世界モデル機能を直接体験できます。