世界中のAI競争が言語モデルのパラメーターや文脈の長さに注目している中、人工知能の先駆者であるリー・フェイ(Fei-Fei Li)は耳をつんざく警告を発した。「真の知能とは、単に『話す』ことではない。物理的な世界を理解し、操る能力、つまり『空間知能(Spatial Intelligence)』である」と彼女は述べた。最新のブログでは、彼女は明確に指摘している。「AIが空間推論や物の関係性、動的予測を習得できなければ、いわゆる『汎用人工知能(AGI)』は蜃気楼に過ぎない。」
空間知能:人間の知能の原始的なエンジン
リー・フェイは、空間知能が人間の認知の基盤であり、言語が登場するよりもはるかに前から存在すると強調している。乳児がおもちゃをつかむ動作から、科学者がX線回折図でDNA二重らせん構造を導き出した事例まで、古代ギリシャ人が影を使って地球の周長を測ったことから、エンジニアが自律走行のルートを設計するまで、これらの突破はすべて空間、形状、運動、因果関係についての深い理解に依存している。しかし現在の主流の大規模モデルは、テキストをスムーズに生成できるものの、「コップが机の端に置かれた場合、落ちるかどうか」のような基本的な物理的常識に対して頻繁に誤りを犯している。

「次の単語予測」を超えて:AIの「世界モデル」を構築する
この壁を乗り越えるためには、リー・フェイは新世代の世界モデル(World Model)を構築する必要があると提案している。これは、物理環境を生成・相互作用・状態予測できるマルチモーダルシステムである。このモデルは以下の3つの主要な能力を持つ必要がある:
三次元、あるいは四次元(時間も含む)を感知するのではなく、二次元画像のみを処理するわけではない;
行動と結果の因果連鎖を理解する。例えば、「ブロックの塔を倒す」後の連鎖反応;
被動的にラベル付けされたデータを受け入れるのではなく、能動的な相互作用を通じて学ぶ。
この目標達成には以下の3つの課題がある:従来の「次の単語予測」に代わる新しいトレーニング手法、膨大なビデオから深層的な空間構造を抽出すること、そして3D/4D推論をサポートする新しいニューラルアーキテクチャ。現在、リー・フェイのチームは全力を尽くして、コンピュータビジョン、エージェント型知能、ジェネレーティブAIを統合しようとしている。
三段階の実装:アイデアから科学へ、人類の生産性を再構築
リー・フェイは空間知能の進化の道筋を描いている:
短期的には、映画、ゲーム、バーチャルナラティブを支援し、より現実的な動的なシーンを生成すること;
中長期的には、サービスロボットが家庭環境を真正に理解し、安全に物を届けたり、高齢者を支援したりすること;
長期的には、科学の発見(例えば分子の折り畳みシミュレーション)、正確な医療(手術経路の計画)および没入型教育を推進すること。
AIの使命は、人間を補完すること、代替することではない
技術への熱狂の中でも、リー・フェイは一貫して自分の立場を再確認している。「AIの最終的な目的は、人間を代替することではなく、人間の能力の境界を広げることである」と彼女は述べている。彼女は学界や業界に呼びかけ、オープンで責任ある空間知能のエコシステムを共に構築し、技術の恩恵が全人類に届くようにすることを望んでいる。
AIbaseは、リー・フェイの声明が技術的な転換だけでなく、AI開発の哲学の修正であると考えている。業界が「言語の幻想」から「物理的現実」に戻れば、AIはやっとチャットウィンドウから脱出し、工場、研究室、そして家庭に進出できるだろう。この空間知能の革命こそ、真の知能機械への唯一の道かもしれない。
