2月26日,谷歌Deep Mind團隊發佈基礎世界模型Genie,一個虛擬生成的可交互環境,110 億參數,通過給模型投喂視頻數據進行訓練,生成照片、草圖甚至可以操控的虛擬世界。Genie是在沒有任何動作標籤的情況下進行訓練的,而傳統AI是需要人給圖片打標籤來訓練AI識別圖片。這意味着Genie需要從視頻中自行識別不同動作的特徵和模式。Genie生成的視頻卡通化,可模擬機器人動作與變形物體,較Sora更偏向動圖。谷歌表示Genie具有挑戰性,能夠學習細顆粒度的控制,從互聯網視頻中學習。Genie還可以模擬多種潛在動作,根據生成的環境推測出不同動作。