2022年,當 ChatGPT 席捲全球時,OpenAI 內部一個名爲 MathGen 的小團隊正默默致力於一項更爲基礎的研究:教 AI 模型進行數學推理。如今,這項工作已成爲 OpenAI 打造 AI 智能體(Agent)的核心技術,並引發了硅谷的人才爭奪戰。本文將深入解析 OpenAI 的 AI 智能體之路,探尋其如何通過強化學習和計算突破,從一個低調的研究項目走向通用智能體的宏偉藍圖。

2022年,在 ChatGPT 憑藉其強大的語言能力迅速走紅、成爲史上增長最快的產品之一時,研究員亨特·萊特曼(Hunter Lightman)正專注於一項截然不同的任務:領導一個名爲 MathGen 的團隊,教 OpenAI 的模型解決高中數學競賽難題。

OpenAI

當時,OpenAI 的模型在數學推理方面表現欠佳。但正是這個被視爲基礎研究的項目,爲公司後來的突破性進展奠定了基石。如今,這個團隊的成果已成爲業界領先的 AI 推理模型,即 AI 智能體背後的核心技術。

OpenAI 首席執行官山姆·奧特曼(Sam Altman)在2023年公司首屆開發者大會上曾描繪了一個宏偉願景:“最終,你只需向計算機提出需求,它就會爲你完成所有任務。”他所指的正是 AI 智能體,一個能夠像人類一樣在計算機上執行復雜任務的 AI 系統。

強化學習的復興:從 AlphaGo 到 o1模型

OpenAI 的 AI 智能體之路,與一種名爲強化學習(RL)的訓練技術緊密相連。雖然 RL 早在2016年穀歌 DeepMind 的 AlphaGo 擊敗世界圍棋冠軍時就已名聲大噪,但 OpenAI 的突破在於將其與大語言模型(LLM)相結合。

OpenAI 早期的 GPT 系列模型,雖然擅長文本處理,但在基礎數學方面卻舉步維艱。直到2023年,OpenAI 團隊取得了一項代號爲“Strawberry”的突破。該技術結合了 LLM、強化學習以及“測試時間計算”技術,後者爲模型提供了額外的時間和計算能力來規劃、驗證並解決問題。這一突破使得 OpenAI 能夠引入“思路鏈”(CoT)方法,顯著提升了模型在解決未知數學問題上的表現。

正如研究員埃爾·基什基(El Kishky)所描述:“我看到模型開始推理了。它會注意到錯誤,然後回溯,也會感到沮喪。感覺就像讀懂了一個人的想法。”

這一技術組合最終促成了 OpenAI 推理模型 o1的誕生。o1的規劃與事實覈查能力,爲打造強大的 AI 智能體提供了堅實基礎。萊特曼表示,o1的誕生“解決了困擾我好幾年的一個難題”,是他研究生涯中“最激動人心的時刻之一”。

o1的價值與人才爭奪戰

2024年秋季,OpenAI 發佈 o1模型,震驚了世界。這一突破證明,通過新的訓練方法可以繼續提升模型的性能。不到一年時間,o1背後的21位研究人員就成了硅谷最搶手的人才。

馬克·扎克伯格(Mark Zuckerberg)以超過1億美元的薪酬待遇,成功招募了五名 o1研究員加入 Meta 新成立的超級智能部門,其中包括被任命爲該實驗室首席科學家的趙勝佳。這一舉動,凸顯了 AI 推理模型在當前技術競賽中的戰略地位。

AI 智能體的未來:從編碼到主觀任務

儘管 OpenAI 的模型已在國際數學奧林匹克競賽中榮獲金牌,但其最新的 AI 系統仍會產生幻覺,其智能體在執行復雜任務時也仍面臨挑戰。

目前市面上的 AI 智能體,如 OpenAI 的 Codex,最適合在編碼等定義明確、可驗證的領域工作。但在處理購物或尋找停車位等複雜且主觀的任務時,通用 AI 智能體仍然舉步維艱。

OpenAI 研究員諾姆·布朗(Noam Brown)表示,公司正在探索新的通用強化學習技術,以應對這些難以驗證的任務。通過這種方式,OpenAI 打造了能在數學競賽中奪金的模型。該模型能夠生成多個“代理”,同時探索多個想法,最終選出最佳答案。谷歌和 xAI 等公司也已開始採用類似技術。

OpenAI 希望通過即將推出的 GPT-5等模型,進一步鞏固其在 AI 領域的領先地位。埃爾·基什基表示,OpenAI 的最終目標是打造能夠直觀理解用戶意圖、無需繁瑣設置的 AI 智能體。

儘管 OpenAI 在幾年前引領了人工智能行業,但如今谷歌、Anthropic、xAI 和 Meta 等強勁對手也正迎頭趕上。問題已不再是 OpenAI 能否實現其智能代理的未來,而是能否在競爭對手之前做到這一點。