正文

大模型評測平臺CompassArena升級推出全新 Judge Copilot 功能

發布於AI新閒資訊

時間 :Dec 19, 2024

閱讀 :1分鐘

上海人工智能實驗室司南OpenCompass團隊與魔搭ModelScope聯合推出的大模型評測平臺CompassArena（大模型競技場）近日迎來了新升級，旨在爲用戶提供更科學、全面的模型評估體驗。自上線以來，該平臺吸引了大量社區用戶參與並貢獻數據，基於這些數據，CompassArena不斷優化，此次升級包括全新Judge Copilot功能和榜單算法的改進，以及新增20多個全新模型。

Judge Copilot功能利用強大的評價模型Compass-Judger-1-32B-Instruct，爲用戶提供全方位對比分析對話模型表現的能力，從多維度評價、實時對比到智能決策輔助，使主觀評測更精準、高效。此外，榜單算法進行了全新升級，對原始的Bradley-Terry統計算法進行改進，引入控制變量降低混淆因素的影響，使模型排名更科學、精準。新增的模型涵蓋國內外商業模型及開源模型，豐富了對戰體驗。

微信截圖_20241219174613.png

CompassArena高度重視Judge模型在實際應用中的表現，並積極收集用戶反饋以進一步提升Judge模型的綜合能力和對齊效果。用戶可以通過點擊“贊”和“踩”按鈕來表達他們對Judge模型的評價。通過擬合包含控制變量的Bradley-Terry統計模型，CompassArena能夠估計衆多外在因素的影響程度，具體影響程度可以通過幾率比的形式表達。

此次升級，CompassArena迎來了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等國內商業模型，以及claude-3.5-sonnet-20241022、gemini-exp-1121等國外商業模型和一系列開源模型的加入。新增模型所屬機構包括360、DeepSeek、豆包等，爲用戶提供更豐富的對戰選擇。

體驗地址：https://www.modelscope.cn/studios/opencompass/CompassArena