最近開催されたRL China 2025のオープニングセレモニーで、ロンドン大学学院の汪軍教授は「強化学習の父」として知られるリチャード・サットン氏と深く対話し、知能の本質や将来の発展方向について話し合いました。汪軍教授は知能情報システム分野の権威であり、サットン氏とともに強化学習(RL)の学問的基盤を振り返り、現在の人工知能業界の急速な拡大が基礎科学研究に与える影響にも注目しました。
サットン氏は、現在の人工知能技術、特に大規模言語モデル(LLM)が実際の応用において強力な能力を示しているものの、それらが真正の知能の理解への道ではないと指摘しました。彼は、LLMが訓練後に学習能力を失う理由として、明確な目標や報酬メカニズムがないことを挙げました。これに対し、強化学習は環境との相互作用を通じて目標を達成する方法であり、この方式により知能の仕組みをより良く理解・模倣できると強調しました。
サットン氏は、真の知能には明確な目標を定義し、「報酬」信号によって学習を駆動することが必要であると提唱しました。彼は、強化学習の核心は経験から学ぶことであり、単一の手法である勾配降下法に依存するだけではないと考えています。知能の発展を推進するためには、探索と勾配降下法を組み合わせ、より多くの可能性を探索する必要があると述べました。また、産業界からの資金の流入が応用の発展を促進しているものの、これは科学的研究が長期的な目標から逸脱しないようにすることも重要であると強調しました。
若手研究者に対するメッセージとして、サットン氏は基礎科学に注目することを奨励し、人工知能の探求は短期間で解決できる問題ではなく、長期的なプロセスであると強調しました。彼は、産業界が即時の技術に注目している一方で、科学界は未解決の根本的な問題を探求し、知能の本当の理解を推進する必要があると述べました。
今回の対話は、技術の進歩を追求する一方で、知能の本質を深く理解することを忘れてはならないことを私たちに思い出させてくれます。