微軟最新發布了Phi-3.5-vision,一款輕量級、多模態的開源AI模型,它是Phi-3模型家族的新成員,專爲需要同時處理文本和視覺輸入的應用設計。Phi-3.5-vision模型在內存或計算資源受限的環境中表現出色,支持128K的上下文長度,是商業和研究領域的理想選擇。
Phi-3.5-vision模型具備廣泛的圖像理解、光學字符識別(OCR)、圖表和表格解析、多圖像或視頻剪輯摘要等功能。在圖像和視頻處理相關的基準測試中,該模型展現出了顯著的性能提升。
Phi-3.5-vision模型由一個42億參數的系統構成,包括圖像編碼器、連接器、投影器和Phi-3Mini語言模型。它使用高質量的教育數據、合成數據和經過嚴格篩選的公開文檔進行訓練,確保了數據質量和隱私。
Phi-3.5-vision包含三款模型:
Phi-3.5Mini Instruct:輕量級AI模型,適合內存或計算資源有限的環境。
Phi-3.5MoE (Mixture of Experts):微軟首次推出的“專家混合”模型,擅長處理複雜任務。
Phi-3.5Vision Instruct:多模態模型,集成了文本和圖像處理功能。
主要功能特點
Phi-3.5-vision模型的主要功能特點包括圖像理解、OCR、圖表和表格理解、多圖像對比、多圖像或視頻剪輯摘要、高效的推理能力以及低延遲和內存優化。
Phi-3.5-vision在多項基準測試中表現優異,如MMMU、MMBench、TextVQA和視頻處理能力測試,以及BLINK基準測試,展現了其在多模態和視覺任務中的強大性能。
微軟Phi-3.5-vision模型的發佈,爲AI領域帶來了新的選擇,特別是在端側運行和複雜視覺推理方面。它的開源特性和優化設計,使其在資源受限的環境中也能發揮出色的性能,爲多種AI驅動的應用提供了強大支持。
模型下載地址:https://huggingface.co/microsoft/Phi-3.5-vision-instruct