智源研究院開源了一種名爲 JudgeLM 的裁判模型,可以高效準確地評判各類大模型。與 GPT-4 相比,JudgeLM 僅需 1/120 的成本,就能達到 90% 以上的評判結果一致性。JudgeLM 可應用於純文本、多模態等多種評判場景,並可以輸出評分、判斷和闡述理由。通過創新方法,JudgeLM 與參考答案的一致性最高超過了 90%,接近人類表現。智源研究院還開源了一個包含訓練和驗證樣本的數據集,用於深入研究大語言模型裁判。未來,JudgeLM 團隊將進一步完善這一裁判模型,提供更準確、高效、覆蓋更多場景的大語言模型評判。