在2024年12月19日的發佈會上,智源研究院與騰訊宣佈推出LongBench v2,這是一個專爲評估大語言模型(LLMs)在真實世界長文本多任務中的深度理解與推理能力而設計的基準測試。該平臺旨在推動長文本模型在理解和推理方面的進步,迴應了當前長文本大語言模型在應用中的挑戰。
LongBench v2的顯著特點包括支持更長的文本長度,範圍從8k到2M個詞,且包含503個具有挑戰性的四選一選擇題,難度較高,連人類專家在15分鐘內的平均準確率也僅爲53.7%。此外,該基準測試涵蓋了六個主要任務類別,包括單文檔問答、多文檔問答、長文本語境學習等,確保了廣泛的應用場景。

爲了保證評估的可靠性,LongBench v2的所有問題均採用多項選擇題形式,並經過嚴格的人工標註和審覈流程。數據收集過程中,招募了來自頂尖大學的標註員,確保問題的質量和難度。通過引入控制變量,LongBench v2對原始Bradley-Terry統計算法進行了改進,降低了混淆因素的影響,使得模型排名更加科學和精準。
在評估結果方面,研究團隊對10個開源LLMs和6個閉源LLMs進行了測試,發現引入控制變量後,模型的表現得到了顯著提升。特別是GPT-4o模型在引入更多推理步驟後,在多文檔問答和長文本語境學習等任務上表現出色,顯示出推理能力的重要性。
LongBench v2的推出不僅爲大語言模型的評估提供了新的工具,也爲未來的研究指明瞭方向,強調了提升模型自身理解和推理能力的重要性。智源研究院和騰訊的合作,標誌着在AI技術領域的進一步發展,期待這一基準測試能夠推動長文本理解和推理技術的進步。
主頁:https://longbench2.github.io
論文:https://arxiv.org/abs/2412.15204
數據與代碼:https://github.com/THUDM/LongBench
