近日,智譜 AI 發佈了高質量、低成本的評分模型 CritiqueLLM,用於評估文本生成模型的性能。傳統的評價指標如 BLEU 和 ROUGE 主要基於 n-gram 重合度來計算評分,缺乏對整體語義的把握。而基於模型的評價方法則對基座模型的選取非常依賴,只有頂級的大模型才能取得令人滿意的效果。爲了解決這些問題,CritiqueLLM 提出了一種可解釋、可擴展的文本質量評價模型。它能夠針對各種任務生成高質量的評分和評價解釋。在含參考文本的場景下,CritiqueLLM 將大模型生成文本和參考文本進行對比,並給出了評分。在 8 類常見的任務中,CritiqueLLM 的評價分數與人工評分的相關係數顯著超過了其他模型,尤其是在無參考文本設定下,CritiqueLLM 在 3 個任務上超過了 GPT-4,達到了最優的評價性能。CritiqueLLM 的方法包括四個主要步驟:用戶詢問增廣、含參考文本評價數據收集、無參考文本評價數據改寫和訓練 CritiqueLLM 模型。通過這些步驟,可以得到適用於含參考文本和無參考文本設定的兩種 CritiqueLLM 模型,用於評估文本生成模型的性能。