性價比之王：微軟開源 Phi-4-reasoning-vision-15B，主打輕量化多模態推理

微軟近日正式開源了其最新研發的多模態推理模型 Phi-4-reasoning-vision-15B。該模型憑藉15B 的參數規模，在保持輕量化的同時，實現了高性能與低成本的理想平衡，爲資源受限環境下的複雜視覺任務提供了全新選擇。

精細化數據驅動的“小鋼炮”

不同於業內動輒消耗萬億級 token 的模型，Phi-4-reasoning-vision 僅使用了200B 多模態 token 進行訓練。研發團隊將數據質量置於首位，通過深度清洗開源數據、生成定向合成數據以及精密的領域數據配比（如增加數學數據可同步提升計算機操作能力），使其在科學推理和屏幕定位任務上表現優異。

創新的混合推理策略

該模型的一大亮點是採用了“混合推理路徑”設計:

感知任務: 在處理圖像描述、OCR 等簡單任務時，模型默認採用直接作答模式，有效降低延遲。
推理任務: 在面對數學公式、科學圖表等複雜邏輯時，模型會自動調用結構化的思維鏈（CoT）路徑，確保答案的準確性。
用戶還可以通過特定的引導詞，手動切換這兩種模式以適配不同場景。

得益於 SigLIP-2動態分辨率編碼器的加入，該模型對高分辨率截圖中的細小元素具有極強的感知力。這使其成爲開發計算機操作助手（CUA）的理想選擇，能夠精準識別並操作網頁或手機界面上的按鈕與輸入框。

目前，Phi-4-reasoning-vision-15B 已在多個開源平臺發佈。微軟希望通過這款緊湊型模型，證明在多模態領域，“更小、更快”也能與“更強”並行，進一步推動空間智能與實時交互技術的普及。

微軟擬於下週Build大會發布全新自研代碼及多場景AI模型

微軟計劃在下週舊金山Build大會上發佈多款自研AI模型，重點推出一款高性價比代碼專用模型，以應對Cursor和Claude Code對GitHub Copilot市場份額的蠶食。該模型旨在通過降低運營成本吸引價格敏感的開發者，同時還將推出多種參數規格的模型，完善自有AI體系並爭取更多開發者支持。

軟銀攜手微軟：打造 AI 全自動呼叫中心，破解日本勞動力困局

軟銀聯合微軟，基於Azure AI構建下一代智能客服平臺，以應對日本呼叫中心行業勞動力短缺與高成本挑戰。轉型目標是從“輔助”邁向“自動”，打造具備人類服務水平、零等待且全天候運行的客服系統，推動客戶服務數字化與智能化升級。

性價比之王：微軟開源 Phi-4-reasoning-vision-15B，主打輕量化多模態推理

相關推薦

PC新紀元來臨！老黃帶自研CPU殺入市場，英偉達版“MacBook Pro”懸念揭曉

Claude太貴燒不起！微軟重回自研路將推全新AI編程大模型

Claude貴到燒不起！微軟掀桌自研AI編程大模型，GitHub開發者迎來大解放

微軟擬於下週Build大會發布全新自研代碼及多場景AI模型

軟銀攜手微軟：打造 AI 全自動呼叫中心，破解日本勞動力困局