上海人工智能實驗室司南OpenCompass團隊與魔搭ModelScope聯合推出的大模型評測平臺CompassArena(大模型競技場)近日迎來了新升級,旨在爲用戶提供更科學、全面的模型評估體驗。自上線以來,該平臺吸引了大量社區用戶參與並貢獻數據,基於這些數據,CompassArena不斷優化,此次升級包括全新Judge Copilot功能和榜單算法的改進,以及新增20多個全新模型。

Judge Copilot功能利用強大的評價模型Compass-Judger-1-32B-Instruct,爲用戶提供全方位對比分析對話模型表現的能力,從多維度評價、實時對比到智能決策輔助,使主觀評測更精準、高效。此外,榜單算法進行了全新升級,對原始的Bradley-Terry統計算法進行改進,引入控制變量降低混淆因素的影響,使模型排名更科學、精準。新增的模型涵蓋國內外商業模型及開源模型,豐富了對戰體驗。

微信截圖_20241219174613.png

CompassArena高度重視Judge模型在實際應用中的表現,並積極收集用戶反饋以進一步提升Judge模型的綜合能力和對齊效果。用戶可以通過點擊“贊”和“踩”按鈕來表達他們對Judge模型的評價。通過擬合包含控制變量的Bradley-Terry統計模型,CompassArena能夠估計衆多外在因素的影響程度,具體影響程度可以通過幾率比的形式表達。

此次升級,CompassArena迎來了包括360gpt2-pro、deep-seek-v2.5-chat、doubao-pro-32k-240828等國內商業模型,以及claude-3.5-sonnet-20241022、gemini-exp-1121等國外商業模型和一系列開源模型的加入。新增模型所屬機構包括360、DeepSeek、豆包等,爲用戶提供更豐富的對戰選擇。

體驗地址:https://www.modelscope.cn/studios/opencompass/CompassArena