k1系列強化學習模型登場！月之暗面Kimi上線視覺思考模型

月之暗面今日宣佈發佈全新視覺思考模型k1。這一模型基於強化學習技術，不僅支持端到端的圖像理解，還整合了思維鏈技術，將能力擴展到了數學之外的更多基礎科學領域，包括物理和化學。在基準能力測試中，k1模型的表現超越了全球領先的標杆模型，如OpenAI的o1、GPT-4o以及Claude3.5Sonnet。

新一代模型通過激勵生成更詳細的推理步驟，形成高質量的思維鏈，顯著提升瞭解決複雜任務的成功率。Kimi的k1模型在圖像理解與思考能力上的融合，爲用戶提供了更流暢的交互體驗，能夠直接處理用戶輸入的圖像信息並得出答案，無需藉助外部的OCR或額外視覺模型。

微信截圖_20241216100218.png

k1模型的訓練分爲兩個階段，首先是預訓練得到基礎模型，然後在此基礎上進行強化學習後訓練。基礎模型在OCRBench上取得了903分的優異成績，並在MathVista-testmini、MMMU-val和DocVQA基準測試集中表現突出。強化學習後訓練在數據質量和學習效率方面進行了優化，實現了規模化上的新突破。

Kimi還自主構建了一個標準化測試集Science Vista，涵蓋不同難度的數理化圖片題目，並將開放給全行業使用。儘管k1模型在內部測試中顯示出一些侷限性，如在分佈外泛化、複雜問題上的成功率等方面有提升空間，但其在視覺噪聲場景下的表現優於其他模型，顯示出超強的視覺識別能力。

Kimi智能助手的k1視覺思考模型不僅在數學領域表現出色，還擴展到了物理和化學領域，展現出了廣泛的基礎科學能力。此外，k1模型還展現出了通用能力，能夠解釋和推理非數學問題，如科學家手稿的內容和背景故事。

Kimi智能助手期待與用戶一起探索更大的世界，k1新模型已經上線，用戶可以通過最新版的Kimi智能助手手機APP或網頁版體驗這一新功能。

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

7月2日，開源強化學習基礎設施項目AReaL發佈2.0版，旨在打通基礎模型訓練與智能體應用間的鏈路，爲Agent場景提供強化學習訓練支撐。2.0版面向真實業務，提供持續學習基礎設施，可記錄、整理Agent在任務中的交互過程並接入後續訓練流程，讓智能體在使用中持續進化。

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

英偉達開源Polar強化學習訓練框架，核心創新在於使Codex、Claude Code等主流代碼智能體無需修改原生代碼即可接入GRPO訓練。該框架解決代碼智能體從單步任務向複雜長流程任務（如倉庫級修改、OS交互）演進時的行業痛點，打破了智能體強化學習的“圍牆”。

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

騰訊混元聯合UCLA、港中文等機構，針對多模態大語言模型（MLLMs）從“被動理解”向“主動推理”進化的需求，開源了多模態搜索智能體。此前，高質量數據、自動化軌跡合成路徑及訓練配方的缺失，導致頂尖智能體難以復現。此次開源旨在打破僵局，推動社區發展。

k1系列強化學習模型登場！月之暗面Kimi上線視覺思考模型

相關推薦

讓Agent越用越強:AReaL2.0開源，打造面向自演進智能體的RL基礎設施

前 DeepMind 團隊量化 AI 公司 EquiLibre 完成 A 輪融資，估值達5億美元

英偉達開源 Polar 框架：讓 AI 編碼智能體實現強化學習“零門檻”進化

騰訊發佈OpenSearch-VL：開源多模態深度搜索 agent 的“全家桶”方案

32B 推理性能反超 o1-mini！阿里通義發佈 FIPO 算法，讓大模型“想得更深”