月之暗面(Moonshot AI)今日推出其備受期待的 Kimi 研究功能,正式加入日益激烈的 AI 智能體(Agent)競爭。據稱,該功能在多項基準測試中表現出色,尤其在名爲“人類終極考驗”(Humanity's Last Exam,HLE)的測試中,其性能超越了谷歌和 OpenAI 的同類產品,一舉登頂。

QQ20250623-103851.png

Kimi-Researcher:強大的多輪搜索與推理智能體

Kimi 研究功能的核心是 Kimi-Researcher,這是一款擅長多輪搜索與推理的自主智能體。根據官方數據,在執行每個任務時,Kimi-Researcher 平均會進行23個推理步驟,並瀏覽 超過200個網址,展現出強大的信息處理和分析能力。

基準測試表現:HLE 登頂,RL 訓練效果顯著

Kimi-Researcher 基於 Kimi k-系列模型的內部版本構建,並完全通過 端到端的智能體強化學習(RL) 進行訓練。在“人類終極考驗”(HLE)這項測試中,它取得了26.9% 的 Pass@1得分率,達到了業界頂尖水平;其 Pass@4準確率更是高達40.17%。

值得注意的是,Kimi-Researcher 的 HLE 初始得分僅爲8.6%,最終能達到26.9% 的高分,幾乎完全得益於端到端的強化學習訓練。月之暗面表示,這有力地證明了端到端智能體強化學習可以極大地推動智能體智能水平的提升。

此外,Kimi-Researcher 在多個複雜且具挑戰性的真實世界基準測試中也表現出色。例如,在 xbench 測試(一套全新的、動態的、與專業需求對齊的測試套件)的 xbench-DeepSearch 項目上,Kimi-Researcher 取得了69% 的 Pass@1(4次運行平均值),其表現優於配備了搜索工具的 o3等模型。在針對多輪搜索推理(如 FRAMES、Seal-0)和事實性信息問答(如 SimpleQA)的基準測試中,Kimi-Researcher 同樣表現出色。

QQ20250623-104025.png

開源計劃與內測申請

月之暗面宣佈,Kimi-Researcher 將於今日起逐步向用戶開放,現在用戶可以訪問 kimi.com 申請內測。更令人振奮的是,未來幾個月內,月之暗面將 開源 Kimi-Researcher 背後的基礎預訓練模型以及經過強化學習訓練後的模型,這將爲 AI 社區的發展帶來重要貢獻。