阿里巴巴人工智能部門今日正式發佈Qwen3-VL視覺語言模型系列的緊湊版,推出4億和8億參數的變體。此舉標誌着先進多模態AI技術向邊緣設備和資源受限環境更廣泛應用的重大飛躍。
性能飛躍,小模型媲美巨頭
此次發佈的4B和8B模型均提供Instruct和Thinking版本,並針對STEM推理、視覺問答(VQA)、光學字符識別(OCR)、視頻理解及代理任務等核心多模態能力進行了優化。
根據公佈的基準測試結果,這些小型模型在多個類別中表現出色,超越了Gemini2.5Flash Lite和GPT-5Nano等競爭對手。更引人注目的是,其性能在若干領域甚至能與僅六個月前發佈的更大規模Qwen2.5-VL-72B模型相媲美,展示出極高的參數效率。
資源優化,推動AI民主化
新模型的關鍵亮點在於顯著降低的VRAM使用率,使其可以直接在消費級硬件如筆記本電腦和智能手機上運行。爲進一步提升效率,阿里巴巴還提供了FP8量化版本,在不犧牲核心能力的前提下進一步降低資源消耗。正如一位參與開發的Qwen團隊成員所說:“小型VL模型適用於部署,並在手機和機器人領域具有顯著意義。”
快速迭代,開源共享
此次緊湊模型的推出,延續了9月首發的Qwen3-VL系列(旗艦模型參數規模達2350億)的路線圖。此前,阿里巴巴在十月初已發佈30B-A3B變體,通過僅30億活躍參數實現了與GPT-5Mini和Claude4Sonnet相當的基準測試結果。這種快速迭代被業內視爲阿里巴巴推動高性能AI民主化的有力體現,尤其適用於機器人等具身系統。
地址:
https://huggingface.co/collections/Qwen/qwen3-vl-68d2a7c1b8a8afce4ebd2dbe
https://github.com/QwenLM/Qwen3-VL/tree/main/cookbooks