近期,OpenAI 發佈了一項關於其最新推理模型 o3的研究,展示了大型語言模型(LLM)如何從初學者的競賽程序員成長爲全球頂尖水平的競爭者。o3在著名編程平臺 CodeForces 上取得了2724的評分,位於前99.8% 的百分位,表現相當出色,並在2024年國際信息學奧林匹克(IOI)中獲得了金牌級別的成績。
圖源備註:圖片由AI生成,圖片授權服務商Midjourney
研究表明,o3模型在 IOI 比賽中超越了專門爲此活動微調的 o1-ioi 模型,這一結果表明,通過強化學習取得的成就要優於手工設計的解決方案。在 IOI2024賽事中,o3在標準條件下參與競爭,成功地跨越了金牌的門檻。同時,它在 CodeForces 上也躋身全球前200名程序員之列,能夠與頂尖人類程序員展開角逐。
來自沃頓商學院的副教授 Ethan Mollick 表示:“通過強化學習發展起來的通用推理能力,現已超過了那些經過精心設計的領域特定解決方案。與其爲特定任務構建專門的系統,不如通過更強的推理能力來讓大型通用模型實現更優的結果。”
此次研究是 OpenAI 對其模型在競爭編程和更廣泛軟件工程領域表現進行評估的一部分。此外,另一家公司 Anthropic 也在本週一發佈了一份關於 AI 對職場影響的報告。報告指出,約36% 的職業在至少25% 的工作任務中使用了 AI,而57% 的 AI 應用則提升了人類的能力,43% 的應用則專注於自動化。儘管如此,只有4% 的職業中,AI 被用於至少75% 的工作任務。
這項研究還表明,軟件開發和技術寫作是 AI 應用的主要領域,而在涉及與環境進行物理互動的任務中,AI 的作用則相對較小。
劃重點:
💻 o3模型在 CodeForces 上獲得2724評分,位於前99.8% 的百分位,並在國際信息學奧林匹克中獲得金牌。
📊 強化學習的效果超越了傳統的手工設計解決方案,展示出通用推理能力的優勢。
📈 AI 在職場中的應用廣泛,軟件開發和技術寫作是其主要領域,但在物理互動任務中的應用較少。