近日,國內知名大模型平臺 “月之暗面” 正式發佈了其開源的多模態模型 Kimi-VL-A3B-Thinking 的最新版本 ——Kimi-2506。這一版本的發佈標誌着智能體和視覺理解技術的重大進步。
Kimi-2506的開源地址爲 [此處插入鏈接],而在線演示可在 [此處插入鏈接] 進行體驗。在性能方面,Kimi-2506展現出了更爲出色的智能性和節省 token 的能力。在多模態推理的基準測試中,該模型在 MathVision 上取得了56.9的分數,比之前提升了20.1;在 MathVista 上達到了80.1,提升幅度爲8.4。其他如 MMMU-Pro 和 MMMU 的得分也有所上升,整體思考長度平均減少了20%,進一步提升了推理效率。
在視覺理解方面,Kimi-2506的能力顯著增強,與之前版本相比,其在常規視覺感知任務上的表現也更爲優越。例如,在 MMBench-EN-v1.1和 MMStar 的得分分別爲84.4和70.4,顯示出更全面的視覺理解實力。此外,Kimi-2506支持更高分辨率的圖像處理,單張圖像的總像素達到320萬,相較前一版本提升了四倍。這使得模型在高分辨率感知任務中也取得了可喜的進展。
在應用領域,Kimi-2506在圖像理解、圖表推理、數學計算、OS 智能體接地、長 PDF 理解和視頻分析等多個方面展現了出色的表現。它能夠準確識別貓的品種、分析圖表中的語義標籤、解決數字填空題,並能有效處理長文檔的內容。模型還能夠將視頻拆分爲多個場景並提供詳細描述。
Kimi-VL-A3B-Thinking 模型由三個主要部分組成:MoonViT 視覺編碼器、MLP 投影器和語言模型。MoonViT 能夠直接處理不同分辨率的圖像,提升了訓練效率。MLP 投影器則起到了視覺特徵與語言模型之間的橋樑作用,確保了兩者的有效結合。而 Kimi 的語言模型則基於 Moonlight,經過大規模的多模態數據和純文本數據的聯合預訓練,增強了模型的語言能力與多模態理解能力。
優化方面,Kimi-VL 還採用了增強版的 Muon 優化器,通過引入權重衰減和分佈式實現,進一步提高了訓練效果與內存使用效率,爲模型的性能優化提供了強有力的支持。
開源地址:https://huggingface.co/moonshotai/Kimi-VL-A3B-Thinking-2506
在線demo:https://huggingface.co/spaces/moonshotai/Kimi-VL-A3B-Thinking
劃重點:
🌟 Kimi-2506版本的多模態模型在推理效率和視覺理解能力上均有顯著提升。
🖼️ 新版本支持更高分辨率圖像處理,單張圖像總像素提升至320萬。
🧠 模型在多個應用領域表現出色,涵蓋圖像理解、數學計算和視頻分析等功能。