一個名爲 SciArena 的全新開放平臺現已上線,旨在通過人類偏好評估大型語言模型(LLM)在科學文獻任務中的表現。早期結果已揭示不同模型之間存在顯著的性能差距。

SciArena 由耶魯大學、紐約大學和艾倫人工智能研究所的研究人員共同開發,旨在系統性評估專有和開源 LLM 處理科學文獻任務的效果,填補了該領域系統性評估的空白。

QQ20250703-092937.png

與傳統基準測試不同,SciArena 效仿 Chatbot Arena 的方法,依靠真實研究人員進行評估。用戶提交科學問題後,會收到兩個由模型生成並引用的長格式答案,隨後用戶判斷哪個答案更優。相關文獻通過定製的 ScholarQA 檢索流程獲取。

迄今爲止,該平臺已收集了來自自然科學、工程學、生命科學和社會科學領域102位研究人員的13,000多份評估,問題涵蓋概念解釋和文獻檢索等多個方面。

QQ20250703-092947.png

在目前的排行榜上,OpenAI 的 o3模型位居榜首,領先於 Claude-4-Opus 和 Gemini-2.5-Pro。在開源模型中,Deepseek-R1-0528脫穎而出,其性能甚至超越了多個專有系統。研究小組指出,o3在自然科學和工程科學領域表現尤爲出色。研究人員還發現,用戶在評估時最關注的是引用是否與陳述正確匹配,而非僅僅引用數量。答案長度等因素對 SciArena 的影響小於對 Chatbot Arena 或 Search Arena 等平臺的影響。

QQ20250703-092957.png

儘管取得了這些進展,自動化評估仍然是一個挑戰。該團隊還推出了一項新的基準測試 SciArena-Eval,用於測試語言模型判斷其他模型答案的能力。然而,即使是表現最佳的模型,也只有約65% 的時間能與人類偏好保持一致,這凸顯了當前 LLM-as-a-Judge 系統在科學領域的侷限性。

SciArena 面向公衆開放,其代碼、數據和 SciArena-Eval 基準測試均以開源形式提供。該平臺的目標是支持開發更貼近人類在科學信息任務中需求的模型。未來,SciArena 計劃增加對基於代理的研究系統的評估功能。