Qwen團隊近日宣佈開源其最新研發的多模態推理模型QVQ,標誌着人工智能在視覺理解和複雜問題解決能力方面邁出了重要一步。該模型基於Qwen2-VL-72B構建,旨在通過結合語言和視覺信息,提升AI的推理能力。在MMMU評測中,QVQ取得了70.3的高分,並在多項數學相關基準測試中相較Qwen2-VL-72B-Instruct顯示出顯著的性能提升。

QVQ模型在視覺推理任務中展現出了特別的優勢,特別是在需要複雜分析思維的領域。儘管QVQ-72B-Preview表現出色,但團隊也指出了模型存在的一些侷限性,包括語言混合和代碼切換問題、可能陷入循環邏輯模式、安全和倫理考慮以及性能和基準限制。團隊強調,儘管模型在視覺推理方面有所改善,但它無法完全替代Qwen2-VL-72B的能力,在多步驟視覺推理過程中,模型可能會逐漸失去對圖像內容的關注,導致幻覺。

微信截圖_20241225075810.png

Qwen團隊在四個數據集上對QVQ-72B-Preview進行了評估,包括MMMU、MathVista、MathVision和OlympiadBench,這些數據集旨在考察模型在視覺相關的綜合理解和推理能力。QVQ-72B-Preview在這些基準測試中表現出色,有效縮小了與領先模型之間的差距。

爲了進一步展示QVQ模型在視覺推理任務中的應用,Qwen團隊提供了幾個示例,並分享了技術博客的鏈接。此外,團隊還提供了模型推理的代碼示例,以及如何使用魔搭API-Inference直接調用QVQ-72B-Preview模型的方法。魔搭平臺的API-Inference爲QVQ-72B-Preview模型提供了支持,用戶可以通過API調用的方式直接使用該模型。

模型鏈接:

https://modelscope.cn/models/Qwen/QVQ-72B-Preview

體驗鏈接:

https://modelscope.cn/studios/Qwen/QVQ-72B-preview

中文博客:

https://qwenlm.github.io/zh/blog/qvq-72b-preview