近期,開源社區傳來好消息:上海AI Lab團隊發佈了LLaMA版o1項目,旨在復刻OpenAI的奧數解題神器o1。該項目採用了多種先進技術,包括蒙特卡洛樹搜索、Self-Play強化學習、PPO以及AlphaGo Zero的雙重策略範式,引起了開發者社區的廣泛關注。

image.png

早在OpenAI的o1系列發佈之前,上海AI Lab團隊就開始探索利用蒙特卡洛樹搜索來提升大模型的數學能力。o1發佈後,團隊進一步升級算法,專注於數學奧賽問題,並將其作爲OpenAI草莓項目的開源版本進行開發。

爲了提升LLaMA模型在數學奧賽問題上的表現,團隊採用了成對優化策略,即不直接給出答案的絕對分數,而是比較兩個答案的相對優劣。 通過這種方法,他們在最難的AIME2024基準測試中取得了顯著進步。 在30道測試題中,優化後的模型做對了8道,而原版LLaMA-3.1-8B-Instruct模型只做對了2道。 這一成績超過了除o1-preview和o1-mini之外的其他商業閉源方案。

image.png

10月底,團隊宣佈在基於AlphaGo Zero架構復刻OpenAI o1方面取得重大進展,成功使模型在學習過程中通過與搜索樹交互獲得高級思維能力,而無需人工標註。 不到一週,項目便開源了。

目前,LLaMA版o1已開源的內容包括:預訓練數據集、預訓練模型、強化學習訓練代碼。 其中,“OpenLongCoT-Pretrain”數據集包含超過10萬條長思維鏈數據,每條數據都包含一個完整的數學問題推理過程,包括思考內容、評分結果、問題描述、圖形座標、計算過程、結論推導等完整的推理鏈路,以及對各個推理步驟的批評和驗證內容,爲推理過程提供評價和指導。 經過在此數據集上的繼續預訓練,模型可以像o1一樣讀取和輸出長思維鏈過程。

image.png

雖然項目名爲LLaMA-O1,但目前官方提供的預訓練模型是基於谷歌的Gemma2。 在預訓練模型的基礎上,開發者可以繼續進行強化學習訓練。 訓練過程包括:使用蒙特卡洛樹搜索進行自我對弈以生成經驗;將經驗存儲在優先經驗回放緩衝區中;從緩衝區採樣批次數據進行訓練;更新模型參數和經驗優先級。 訓練代碼中還使用了一些關鍵技術,包括使用LoRA進行參數高效微調、使用PPO算法作爲策略優化方法、實現GAE算法用於計算優勢函數、以及使用優先經驗回放提高訓練效率。

值得注意的是,LLaMA-O1代碼發佈在名爲SimpleBerry的GitHub賬號下,該賬號沒有特別簡介,顯得比較神祕。 從其他與SimpleBerry相關的賬號和官網信息中,只能看出其性質是一個研究實驗室,但沒有透露更多研究方向的信息。

除了LLaMA-O1之外,另一個公開進展的o1復刻項目是來自上海交通大學團隊的O1-Journey。 該團隊在十月初發布了第一份進展報告,介紹了創新的Journey Learning範式,以及第一個成功將搜索和學習整合到數學推理中的模型。O1-Journey核心開發團隊主要由上交大大三、大四本科生,以及上交大GAIR實驗室(生成式人工智能研究實驗室)的一年級博士生組成,指導教師包括上交大副教授劉鵬飛、姚班校友、斯隆獎得主李遠志等。

論文地址:https://arxiv.org/pdf/2410.02884

https://arxiv.org/pdf/2406.07394