阿里巴巴通義千問團隊近日發佈了Qwen3-VL系列的兩款輕量級模型——4B和8B參數版本。Qwen3-VL系列於上月首次亮相,是通義千問迄今推出的能力最強的視覺語言模型家族。此次新增的小參數版本旨在降低部署門檻,同時保持強勁的性能表現。

新發布的模型包含4B和8B兩種參數規模,每種規模均提供Instruct(指令遵循)和Thinking(思維鏈推理)兩個版本,爲開發者提供了更靈活的選擇空間。從功能定位來看,這兩款模型在保持完整能力的前提下顯著壓縮了體積。

在技術實現上,新模型達成了三個核心目標。首先是大幅降低了硬件資源要求,參數規模的縮減使得顯存佔用明顯減少,讓開發者能夠在更多類型的消費級和邊緣設備上部署運行。其次,儘管模型尺寸大幅縮小,但完整繼承了Qwen3-VL系列的所有核心能力,包括多模態理解、長文本處理和複雜推理等功能模塊。

image.png

從性能表現來看,這兩款輕量級模型在多項權威基準測試中展現出超越同等規模競品的實力。在STEM學科問答、視覺問答(VQA)、光學字符識別(OCR)、視頻理解以及Agent任務等場景中,4B和8B模型不僅超過了Google Gemini2.5Flash Lite和OpenAI GPT-5Nano等同類輕量級模型,在部分任務上甚至能夠接近半年前發佈的72B參數旗艦模型Qwen2.5-VL-72B的水平。

這一發布標誌着大模型"小型化"趨勢的又一進展。通過模型壓縮和優化技術,開發團隊在保持能力完整性的前提下實現了參數量與計算成本的大幅削減,爲視覺語言模型在移動端、物聯網設備等資源受限場景的應用鋪平了道路。對於需要在本地部署或對推理成本敏感的企業用戶而言,這兩款新模型提供了更具性價比的解決方案。

模型地址:https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe