爲複雜視覺推理而生！微軟發佈Phi-3.5-vision 輕量級、多模態開源模型

AIbase基地

發布於AI新聞資訊 · 1 分鐘閱讀 · Jul 18, 2025

微軟最新發布了Phi-3.5-vision，一款輕量級、多模態的開源AI模型，它是Phi-3模型家族的新成員，專爲需要同時處理文本和視覺輸入的應用設計。Phi-3.5-vision模型在內存或計算資源受限的環境中表現出色，支持128K的上下文長度，是商業和研究領域的理想選擇。

Phi-3.5-vision模型具備廣泛的圖像理解、光學字符識別（OCR）、圖表和表格解析、多圖像或視頻剪輯摘要等功能。在圖像和視頻處理相關的基準測試中，該模型展現出了顯著的性能提升。

Phi-3.5-vision模型由一個42億參數的系統構成，包括圖像編碼器、連接器、投影器和Phi-3Mini語言模型。它使用高質量的教育數據、合成數據和經過嚴格篩選的公開文檔進行訓練，確保了數據質量和隱私。

Phi-3.5-vision包含三款模型:

Phi-3.5Mini Instruct:輕量級AI模型，適合內存或計算資源有限的環境。

Phi-3.5MoE （Mixture of Experts）:微軟首次推出的“專家混合”模型，擅長處理複雜任務。

Phi-3.5Vision Instruct:多模態模型，集成了文本和圖像處理功能。

主要功能特點

Phi-3.5-vision模型的主要功能特點包括圖像理解、OCR、圖表和表格理解、多圖像對比、多圖像或視頻剪輯摘要、高效的推理能力以及低延遲和內存優化。

Phi-3.5-vision在多項基準測試中表現優異，如MMMU、MMBench、TextVQA和視頻處理能力測試，以及BLINK基準測試，展現了其在多模態和視覺任務中的強大性能。

微軟Phi-3.5-vision模型的發佈，爲AI領域帶來了新的選擇，特別是在端側運行和複雜視覺推理方面。它的開源特性和優化設計，使其在資源受限的環境中也能發揮出色的性能，爲多種AI驅動的應用提供了強大支持。

模型下載地址：https://huggingface.co/microsoft/Phi-3.5-vision-instruct

IDC發佈大模型平臺應用市場份額報告，百度智能雲位居第一

2023年，中國大模型平臺及相關應用市場規模達到17.65億元人民幣，市場處於早期投入和觀望階段。百度智能雲以19.9%的市場份額位居第一，商湯科技緊隨其後，智譜AI作爲初創企業中的佼佼者位列第三。IDC中國研究總監盧言霞指出，未來2-3年市場將經歷多輪劇變，持續投入基礎大模型研發和提升基座模型能力是企業保持競爭力的關鍵。新興領域如多模態大模型和科學計算大模型仍處於藍海市場，爲產品創新提供了廣闊空間。工程化、降低門檻和創新應用將成爲廠商在市場競爭中脫穎而出的關鍵策略。

聊天就能搞定前端開發?v0智能助手強勢來襲,讓你的代碼飛起來!

v0新推出的網頁開發助手，專爲前端開發者設計，通過聊天交互方式提供專業服務，解決開發難題。它能生成用戶界面代碼、運行代碼、解答編程問題，支持TypeScript、React、Next.js等技術，實現代碼生成、性能優化、應用部署及問題解決。默認進入聊天界面，支持JavaScript代碼生成、最新前端技術解答、上傳內容代碼生成等。v0不斷學習進步，適應最新框架和庫知識，爲前端開發提供智能輔助，用戶可通過在線地址體驗其功能。

真我13 Pro系列來襲：AI超清攝影，讓模糊成爲過去式

真我13Pro系列即將發佈，主打突破性性能與攝影功能。其AI超清功能可一鍵優化模糊照片，提升至超清效果，滿足攝影愛好者需求。真我13Pro+特別配置5000萬像素LYT600潛望長焦鏡頭，支持3倍光學變焦與120倍數碼變焦，適應多種拍攝場景。搭載高通驍龍7s Gen2處理器，保證高效性能，配合5200mAh大容量電池與80W快充技術，確保長久續航。這一系列的發佈，旨在爲用戶提供卓越的拍照體驗與流暢的使用感受，有望成爲市場上的亮點產品。

谷歌Gmail升級Gemini寫作工具，輕鬆打磨潤色郵件草稿

谷歌爲Gmail引入了“潤色”功能，旨在提升郵件質量，使表達更加得體。此功能通過Gemini寫作工具實現，用戶在“幫我寫作”選項中可選擇“正式化”、“擴展”或“潤色”等，優化郵件內容。在Android和iOS設備上，AI寫作工具更直觀易用。購買了Google One AI Premium賬戶或Gmail Workspace的用戶可享受此功能，快捷優化新草稿，或通過滑動快捷方式選擇多種修改選項，包括撰寫新草稿。

新興 AI 公司 Recogni 推出革命性計算方法，降低成本和電力需求

Recogni公司推出了一種名爲"Pareto"的革命性AI計算方法，採用創新的對數方法，使AI芯片在運行大型模型時性能超越現有技術，同時大幅降低能耗和運行成本。該技術得到知名企業和風險投資公司的支持，如寶馬、博世和Mayfield。與傳統AI模型相比，如OpenAI的GPT-4和谷歌的Gemini，Pareto系統通過將乘法轉換爲加法運算，顯著降低了能耗。已與Meta和Stability AI等公司合作，測試結果積極。Recogni的首款芯片採用七納米工藝，與未透露名稱的合作伙伴共同推廣計劃，計劃在未來幾個月內宣佈。此外，公司正與提供數據中心硬件租賃服務的公司洽談合作，以推動Pareto技術的廣泛應用。

科技愛好者的福音：樹莓派5推2GB版，價格更親民，性能依舊強悍

Raspberry Pi52GB版以50美元的親民價格，展現了卓越的性價比和性能，成爲科技界的一款明星產品。這款設備繼承了Raspberry Pi家族的高性能傳統，通過採用成本優化的BCM2712D0應用處理器，成功將價格降低至50美元，比4GB版本便宜10美元。BCM2712D0處理器去除了不必要的功能，保留了核心的四核處理器和多媒體能力，有效降低了生產成本。Raspberry Pi OS的資源優化特性使其在現代硬件上提供了一個低資源佔用的現代操作系統，對於不需要極端性能的用戶來說，這款2GB版本的Raspberry Pi5是理想選擇。該型號的發佈不僅豐富了產品線，更激發了開發者和愛好者的創造力，爲各種項目提供了強大的支持。