微軟近日正式開源了其最新研發的多模態推理模型 Phi-4-reasoning-vision-15B。該模型憑藉15B 的參數規模,在保持輕量化的同時,實現了高性能與低成本的理想平衡,爲資源受限環境下的複雜視覺任務提供了全新選擇。
精細化數據驅動的“小鋼炮”
不同於業內動輒消耗萬億級 token 的模型,Phi-4-reasoning-vision 僅使用了200B 多模態 token 進行訓練。研發團隊將數據質量置於首位,通過深度清洗開源數據、生成定向合成數據以及精密的領域數據配比(如增加數學數據可同步提升計算機操作能力),使其在科學推理和屏幕定位任務上表現優異。

創新的混合推理策略
該模型的一大亮點是採用了“混合推理路徑”設計:
感知任務: 在處理圖像描述、OCR 等簡單任務時,模型默認採用直接作答模式,有效降低延遲。
推理任務: 在面對數學公式、科學圖表等複雜邏輯時,模型會自動調用結構化的思維鏈(CoT)路徑,確保答案的準確性。
用戶還可以通過特定的引導詞,手動切換這兩種模式以適配不同場景。
得益於 SigLIP-2動態分辨率編碼器的加入,該模型對高分辨率截圖中的細小元素具有極強的感知力。這使其成爲開發計算機操作助手(CUA)的理想選擇,能夠精準識別並操作網頁或手機界面上的按鈕與輸入框。
目前,Phi-4-reasoning-vision-15B 已在多個開源平臺發佈。微軟希望通過這款緊湊型模型,證明在多模態領域,“更小、更快”也能與“更強”並行,進一步推動空間智能與實時交互技術的普及。
