阿里巴巴國際AI團隊最近發佈了一款名爲Marco-o1的新型推理模型,該模型特別關注開放型問題的解決,不僅侷限於具有標準答案的學科領域,如編程和數學。研究團隊致力於探索這類模型能否有效推廣到難以量化且缺乏明確獎勵的領域。

微信截圖_20241126082757.png

Marco-o1模型的特點包括使用超長CoT數據進行微調、利用MCTS擴展解空間、細粒度解空間擴展等。模型通過self-play+MCTS構建了一批具備反思和改正能力的超長CoT數據,並結合其他開源數據一同訓練。此外,研究團隊還定義了mini-Step來進一步擴大模型的解空間,引導模型輸出更優秀的答案。

在翻譯任務中,Marco-o1模型展現了其處理長難句翻譯的能力,這是首次將推理時擴展應用到機器翻譯任務中。研究團隊開源了部分CoT數據和目前最好的模型,並計劃未來開源更多數據與模型。

微信截圖_20241126082711.png

模型在推理時會對response進行深入思考,例如在輸出單詞‘strawberry’中‘r’的數量時,模型會逐步拆解單詞中的每一個字母並比較,最終正確輸出結果。在機器翻譯領域,模型通過推理鏈路正確識別難點,逐詞翻譯,提高了整體的翻譯準確性。

研究團隊還在其他領域進行了嘗試,證明了該模型具備解決其他通用現實問題的能力。Marco-o1的整體結構通過self-play+MCTS構建了一批具備反思、改正能力的超長CoT數據,並結合其他開源數據一同訓練。研究團隊還融入了MarcoPolo家族的一些指令遵循數據集,提升了模型的指令遵循能力。

使用方法方面,研究團隊提供了推理代碼和微調代碼,用戶可以輕鬆地加載模型和分詞器,並開始聊天或微調模型。此外,該模型也可以在ModelScope上的GGUF版本直接運行,提供了一種更快捷的體驗方式。

Marco-o1模型的發佈,標誌着阿里巴巴國際AI團隊在推理模型領域邁出了重要的一步,爲解決開放型問題提供了新的思路和工具。

ModelScope:

https://modelscope.cn/models/AIDC-AI/Marco-o1

Arxiv:

https://arxiv.org/abs/2411.14405

Github:

https://github.com/AIDC-AI/Marco-o1

Hugging Face:

https://huggingface.co/AIDC-AI/Marco-o1