智譜 AI 發佈了專爲中文大語言模型(LLM)而生的對齊評測基準 AlignBench,這是目前第一個針對中文大模型的評測基準,能夠在多維度上細緻評測模型和人類意圖的對齊水平。AlignBench 的數據集來自於真實的使用場景,經過初步構造、敏感性篩查、參考答案生成和難度篩選等步驟,確保具有真實性和挑戰性。數據集分爲 8 個大類,包括知識問答、寫作生成、角色扮演等多種類型的問題。爲了實現自動化和可復現性,AlignBench 採用評分模型(如 GPT-4 和 CritiqueLLM)爲每個模型的回答打分,代表其回答質量。評分模型具有多維度、規則校準的評分方法,提高了模型評分和人類評分的一致性,並提供了細緻的評測分析和評測分數。開發者可以利用 AlignBench 進行評測,並使用評價能力較強的打分模型(如 GPT-4 或 CritiqueLLM)進行評分。通過 AlignBench 網站,提交結果可以使用 CritiqueLLM 作爲評分模型進行評測,大約 5 分鐘即可得到評測結果。