微軟正積極擴展其Phi系列緊湊型語言模型,最新發佈了三款專爲高級推理任務設計的新變體:Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning。這些模型旨在通過結構化推理和內部反思處理複雜的問答,同時保持輕量級特性,使其能夠在包括移動設備在內的低端硬件上高效運行,延續了微軟Phi系列在資源受限設備上實現強大AI功能的願景。

Phi-4-reasoning 擁有140億個參數,並借鑑OpenAI o3-mini的推理路徑,通過監督微調進行訓練。更高級的Phi-4-reasoning-plus在此基礎上增加了強化學習機制,處理的token數量是基礎模型的1.5倍,從而提升了準確率,但同時也增加了響應時間和計算成本。令人矚目的是,儘管參數量僅爲140億,Phi-4推理模型的性能卻能匹敵甚至超越參數量高達700億的DeepSeek-R1-Distill-Llama等大型模型。在著名的美國數學奧林匹克預選賽AIME-2025基準測試中,Phi模型甚至超越了擁有6710億參數的DeepSeek-R1。

微軟表示,這些模型在編程、算法問題解決和規劃任務方面也展現出卓越的性能。邏輯推理能力的提升也積極促進了更通用功能的改進,例如更好地遵循用戶提示或基於長篇內容回答問題。研究人員指出,這些改進在通用基準測試中也產生了顯著的遷移效應。在HumanEvalPlus(代碼能力)和MMLUPro(語言理解)等基準測試中,Phi-4推理模型的表現已能與GPT-4o和o3-mini等更大規模的模型相媲美。

1746149373150.png

此次發佈中最引人注目的是Phi-4-mini-reasoning,這款僅有38億參數的小型模型專爲教育工具和輔導系統等移動和嵌入式應用而設計。它接受了超過一百萬道涵蓋中學到研究生水平的數學題的訓練,使其在數學推理方面表現出色。儘管體積小巧,Phi-4-mini-reasoning在多項評估中均超越了OpenThinker-7B和DeepSeek-R1-Distill-Qwen-7B等模型,在數學問題求解方面甚至能與OpenAI的o1-mini相媲美。

值得一提的是,微軟已針對Windows系統對這些新模型進行了優化。Copilot+ PC上部署了一個名爲Phi Silica的變體,該模型集成到Outlook等工具中,用於離線摘要和“點擊執行”等上下文文本功能。Phi Silica直接在神經處理單元(NPU)上運行,從而實現了更快的響應速度和更低的功耗,爲用戶帶來更流暢的本地化AI體驗。

目前,Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 這三款模型均已在Azure AI Foundry和Hugging Face上開放權重,供開發者和研究人員使用。微軟此舉無疑將進一步推動緊湊型高性能語言模型的發展和應用,特別是在移動和資源受限的環境中。