在最近舉辦的 RL China 2025 開幕式上,倫敦大學學院的汪軍教授與 “強化學習之父” Richard Sutton 進行了深入對話,探討了智能的本質和未來發展方向。汪軍教授作爲智能信息系統領域的權威,與 Sutton 共同回顧了強化學習(RL)的學科根基,並關注當下人工智能行業的快速擴張對基礎科學研究的影響。

Sutton 指出,當前的人工智能技術,尤其是大規模語言模型(LLM),雖然在實際應用中展現出強大的能力,但並不是真正理解智能的途徑。他強調,LLM 在訓練完成後就失去了學習能力,因爲它們缺乏明確的目標和獎勵機制。相比之下,強化學習強調的是通過與環境的互動來達成目標,這種方式能更好地理解和模擬智能的運作過程。

Sutton 提出,真正的智能需要對目標進行明確的定義,並通過 “獎勵” 信號來驅動學習。他認爲,從經驗中學習是強化學習的核心,而不僅僅依賴於梯度下降等單一方法。爲了推動智能的發展,研究者們需要將搜索與梯度下降相結合,以此探索更多的可能性。他還強調,儘管行業資金的涌入促進了應用發展,但這並不應讓科學研究偏離長遠目標。

在對年輕研究人員的寄語中,Sutton 鼓勵他們關注基礎科學,強調人工智能的探索是一個長期的過程,而非短期內能夠解決的問題。他提到,雖然工業界更關注當下可實現的技術,但科學界必須致力於探索尚未解決的根本性問題,以推動智能的真正理解。

此次對話提醒我們,在追求技術進步的同時,不能忽視對智能本質的深入理解。