備受矚目的國內人工智能公司 Moonshot AI (月之暗面) 近日宣佈,正式開源發佈了兩款全新的視覺語言模型——Kimi-VL 與 Kimi-VL-Thinking。這兩款模型以其輕量級的架構和卓越的多模態理解與推理能力,在多個關鍵基準測試中超越了包括 GPT-4o 在內的衆多大型模型,引發行業廣泛關注。
輕巧身軀,蘊藏澎湃動力
與動輒擁有數百億甚至千億參數的主流大模型不同,Kimi-VL 和 Kimi-VL-Thinking 均採用了 MoE(Mixture-of-Experts,混合專家)架構,其激活參數僅約 30億。這意味着它們在運行和部署上更加高效,對計算資源的要求更低。然而,令人驚訝的是,即便在如此輕量級的架構下,這兩款模型依然在多項基準測試中取得了令人矚目的優異成績,充分展現了其強大的推理能力。
多模態智能再升級:數學推理與智能體操作表現亮眼
Kimi-VL 系列模型在多模態推理和智能體能力方面表現突出。在考驗模型多模態數學推理能力的 MathVision 基準測試中,Kimi-VL 取得了 36.8% 的成績,這一表現足以媲美參數量遠超其十倍的大型模型。
更令人印象深刻的是,在評估智能體操作能力的 ScreenSpot-Pro 任務上,Kimi-VL 的得分達到了 34.5%。這表明該模型在理解複雜用戶界面並執行相應操作方面擁有出色的潛力,爲未來開發更智能的人機交互應用奠定了基礎。
高清視野:原生支持高分辨率圖像處理
得益於 MoonViT 架構,Kimi-VL 系列模型具備強大的圖文識別與理解能力。在 OCRBench 基準測試中,其得分高達 867,充分證明了其在處理高分辨率圖像和識別複雜文本方面的卓越性能。這一特性對於處理包含大量圖像和文檔信息的應用場景至關重要。
超長記憶:輕鬆駕馭長上下文理解
超長上下文理解能力是 Kimi-VL 系列模型的另一大亮點。它們支持高達 128K tokens 的上下文輸入。這意味着模型可以同時處理更長的文檔、視頻等複雜長文本信息,並進行更深入的理解和分析.
在長文檔理解測試 MMLongBench-Doc 中,Kimi-VL 取得了 35.1% 的成績,而在長視頻理解測試 LongVideoBench 上,更是獲得了高達 64.5% 的高分。這使得 Kimi-VL 系列模型在文檔問答、視頻分析等需要處理大量上下文信息的場景中具備巨大的應用潛力.
開源共享,共創多模態智能未來
Moonshot AI 強調,此次開源發佈 Kimi-VL 和 Kimi-VL-Thinking 只是邁向通用多模態智能的一小步。他們希望通過開源的方式,吸引更多社區開發者參與到模型的應用開發中,共同探索 Kimi-VL 系列模型在文檔問答、界面操作、圖文理解、視頻分析等領域的無限可能性。
目前,開發者可以通過以下方式獲取 Kimi-VL 系列模型的相關信息和代碼:
GitHub: https://github.com/MoonshotAI/Kimi-VL
https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct