中國初創公司 Moonshot AI 最近推出了一款名爲 Kimi-VL 的開源模型。該模型在處理圖像、文本和視頻方面表現出色,以其高效的性能引起了廣泛關注。Kimi-VL 最大的亮點在於其處理長文檔、複雜推理和用戶界面的能力。

QQ_1745899039142.png

據 Moonshot AI 介紹,Kimi-VL 採用了一種專家混合架構,僅在執行特定任務時激活部分模型。儘管只有2.8億個活躍參數,但 Kimi-VL 在多個基準測試中表現出與許多大型模型相媲美的結果,其效率遠超許多同類產品。Kimi-VL 的最大上下文窗口可達128,000個標記,這使其能夠處理整本書籍或長視頻的文字記錄。根據公司報告,Kimi-VL 在 LongVideoBench 和 MMLongBench-Doc 等測試中始終得分良好。

在圖像處理方面,Kimi-VL 的能力也相當引人注目。與一些其他系統不同,該模型能夠分析完整的屏幕截圖或複雜圖形,而無需將其拆分成更小的部分。它還可以處理數學圖像問題和手寫筆記。在一項測試中,Kimi-VL 成功分析了一份手寫手稿,識別出與阿爾伯特・愛因斯坦相關的引用,並解釋了其重要性。

Kimi-VL 還可以作爲軟件助手,能夠解讀圖形用戶界面並自動化數字任務。Moonshot AI 聲稱,在測試中,該模型在瀏覽器菜單導航或設置更改方面的表現超越了許多其他系統,包括 GPT-4o。

與其他開源模型相比,Kimi-VL 表現得更爲高效。根據 Moonshot AI 的數據,它在24個基準測試中贏得了19個,即便是在活躍參數遠少於其他模型的情況下。它在 MMBench-EN 和 AI2D 等基準測試中,得分與通常由更大型商業模型取得的分數相當或更高。

Moonshot AI 表示,Kimi-VL 的出色表現歸功於其訓練方法。除了標準的監督微調外,該模型還應用了強化學習。專門版 Kimi-VL-Thinking 被訓練用於更長的推理步驟,從而提高了其在複雜任務(例如數學推理)中的表現。

雖然 Kimi-VL 表現出色,但其當前的規模在某些高度語言密集或小衆任務上的表現仍有侷限。同時,它在處理非常長的上下文時也面臨技術挑戰。Moonshot AI 計劃開發更大型的模型版本,增加更多訓練數據,並改善微調技術,目標是創建一個 “強大而資源高效的系統”,適用於科研和工業等實際應用場景。

今年早些時候,Moonshot AI 還發布了 Kimi k1.5,這是一款針對複雜推理的多模態模型,該公司聲稱其在基準測試中能夠與 GPT-4o 相抗衡。Kimi k1.5可在 kimi.ai 網頁界面上獲得,而 Kimi-VL 的演示版本則可在 Hugging Face 找到。

劃重點:  

🌟 Kimi-VL 是 Moonshot AI 發佈的開源多模態 AI 模型,處理圖像、文本和視頻表現優異。  

📈 該模型以2.8億個活躍參數在多項基準測試中超越許多大型模型,顯示出高效的性能。  

🤖 Kimi-VL 支持長文檔處理和複雜推理,能解讀用戶界面並自動化數字任務。