如今的人工智能模型是否真的能像人類一樣記憶、思考、計劃和推理呢?有些 AI 實驗室似乎讓人覺得我們離 “人類級 AI” 不遠了,但 Meta 的首席 AI 科學家 Yann LeCun 卻給了大家一記冷水。他認爲,我們要想實現這一目標,可能還需要十年的努力,而這一切的關鍵在於 “世界模型”。

在今年年初,OpenAI 推出了一項新功能,聲稱它的 ChatGPT 可以 “記住” 與用戶的對話。它最新一代的模型在生成輸出時顯示 “思考” 字樣,甚至宣稱這些模型能夠進行 “複雜推理”。

機器人 人工智能 AI (3)

圖源備註:圖片由AI生成,圖片授權服務商Midjourney

聽起來似乎我們快要迎來 AGI(通用人工智能)的時代。然而,在最近一次的哈德遜論壇上,LeCun 卻駁斥了那些樂觀的聲音,比如 xAI 創始人 Elon Musk 和谷歌 DeepMind 聯合創始人 Shane Legg,他們認爲人類級別的 AI 就在眼前。

LeCun 指出:“我們需要那些能理解世界的機器;具備記憶、直覺、常識,能像人類一樣推理和規劃的機器。” 他強調,儘管一些最熱衷於 AI 發展的聲音頻頻呼喊,當前的 AI 系統其實還遠未達到這個水平。他甚至表示,真正的人類級 AI 可能要 “數年到數十年” 才能實現。

那問題出在哪兒呢?其實很簡單:如今的大型語言模型(LLM)僅僅是通過預測下一個詞彙(通常是幾個字母或一個短詞)來工作,而當前的圖像或視頻模型則是預測下一個像素。這就是說,語言模型只能在一維上進行預測,而圖像 / 視頻模型則在二維上進行。雖然這些模型在各自的領域中表現得相當優秀,但它們並不理解三維世界的複雜性。

正因如此,現代 AI 系統無法完成大多數人類能夠輕鬆應對的簡單任務。LeCun 提到,人類在十歲時就能學會收拾餐桌,而在十七歲時能學會駕駛,甚至只需幾個小時的時間。但即使是當前最先進的 AI 系統,經過數千或數百萬小時的數據訓練,依然無法可靠地在現實世界中操作。

要實現更復雜的任務,LeCun 認爲我們需要構建能夠感知周圍世界的三維模型,核心在於一種新的 AI 架構 —— 世界模型。他解釋道:“世界模型是你對世界行爲的心理模型。” 你可以想象一系列你可能採取的行動,而你的世界模型會讓你預測這些行動對世界的影響。

例如,想象你看到了一個凌亂的臥室,想要把它弄乾淨。你可以很自然地想到,撿起所有的衣服並把它們放好就可以解決問題。你不需要嘗試多種方法,也不需要先學會如何清理房間。你的大腦觀察三維空間,直接制定出第一時間可以實現目標的行動計劃。這種行動計劃正是 AI 世界模型所承諾的 “祕密武器”。

世界模型的另一個好處是,它們能夠處理比 LLM 更爲龐大的數據。這也使得它們的計算需求變得更加複雜,這就是爲什麼各大雲服務提供商正在爭相與 AI 公司合作的原因。

如今,多個 AI 實驗室都在追逐世界模型這個大概念,這個詞迅速成爲吸引風險投資的熱門話題。一組享有盛譽的 AI 研究人員,包括 “AI 女神” Fei-Fei Li 和 Justin Johnson,剛剛爲他們的初創公司 World Labs 籌集了2.3億美元。她和她的團隊堅信,世界模型將解鎖更智能的 AI 系統。OpenAI 也將其尚未發佈的 Sora 視頻生成器描述爲一種世界模型,但具體細節尚未披露。

LeCun 在2022年的一篇關於 “目標驅動 AI” 的論文中闡述了使用世界模型創建人類級 AI 的構想,儘管他指出這個概念已有60多年的歷史。簡而言之,世界模型通過一個世界的基本表示(例如,一個髒房間的視頻)和記憶進行訓練。然後,這個模型會根據這些信息預測世界的變化。接着,你給世界模型設定目標,包括你希望實現的世界的變化狀態(比如將房間清理乾淨),並設置一些 “保護措施”,確保模型不會爲了達成目標而危害人類(比如,清理房間時請不要傷到我)。最後,世界模型會找到一系列行動序列來達成這些目標。

Meta 的長期 AI 研究實驗室 FAIR(基礎 AI 研究)正在積極研究目標驅動 AI 和世界模型,LeCun 表示。FAIR 曾經爲 Meta 的即將推出的產品進行 AI 研究,但 LeCun 說該實驗室近年來已轉向專注於長期 AI 研究,現在甚至不再使用 LLM。

雖然世界模型是個引人入勝的概念,但 LeCun 坦言我們在將這些系統轉變爲現實方面尚未取得太大進展。我們距離目標還有很多艱難的問題需要解決,他表示,“如果不說十年,這裏的一切都可能需要數年才能運作。” 而他的老闆馬克・扎克伯格總是忍不住詢問何時才能實現這一目標。