最近,超長上下文窗口的大型語言模型(LLMs)成爲了人們討論的熱點。這些模型能夠在一個提示中處理數十萬甚至上百萬個標記,爲開發者開啓了許多新的可能性。不過,這些長上下文 LLM 到底能多好地理解和利用所接收到的大信息呢?
爲了解決這個問題,谷歌 DeepMind 的研究人員推出了名爲 Michelangelo 的新基準,旨在評估長上下文推能力。
研究結果表明,儘管當前的頂尖模型在從大量上下文數據中提取信息方面取得了一定進展,但在需要推理和理解數據結構的任務上仍然存在困難。
隨着長上下文窗口的 LLM 逐漸涌現,研究人員開始意識到,需要新的基準來評估這些模型的能力。現有的評估多集中在信息檢索任務上,比如 “從乾草堆中找針” 的評估,即在大量上下文中尋找特定的信息。然而,簡單的檢索並不等同於模型對整體上下文的理解。
爲了解決這些問題,Michelangelo 提出了一種全新的評估方法,通過設置複雜的任務,要求模型在處理長文本時進行更深入的推理和綜合。例如,該評估框架中包含多個與編程和自然語言相關的任務,這些任務不僅考驗模型的記憶能力,更注重其理解和處理信息的深度。
在 Michelangelo 的評估任務中,模型需解決三種基本的長文檔綜合任務,分別是 “潛在列表”、“多輪共指消解” 和其他多種應用場景。這些任務不僅有助於評估模型在長文檔中的表現,還能揭示其在推理和綜合方面的不足之處。
第一項是 “潛在列表”,模型需要處理一長串對 Python 列表的操作,過濾掉無關的或冗餘的語句,以確定列表的最終狀態。
第二項是 “多輪指代解析”,模型需在長對話中理解對話結構並解決引用問題。
第三項是 “我不知道”,模型在回答多個選擇題時,需要判斷上下文中是否包含答案,並能夠準確迴應 “我不知道”。
研究人員在Michelangelo 上面對十個頂尖的 LLM(包括不同版本的 Gemini、GPT-4和 Claude)進行評估,他們在多達100萬個令牌的上下文中測試了模型。Gemini 模型在 MRCR 上表現最好,GPT 模型在 Latent List 上表現出色,Claude3.5Sonnet 在 IDK 上獲得最高分。
研究人員發現儘管這些模型在處理長上下文方面表現各異,但它們在面對更復雜的推理任務時,整體性能都有顯著下降。
這意味着即便在擁有超長上下文窗口的情況下,目前的 LLM 在推理能力上仍有待提高。
研究人員計劃持續擴展 Michelangelo 的評估項目,並希望將其直接開放,供其他研究者測試他們的模型。
論文入口:https://arxiv.org/abs/2409.12640
劃重點:
🔍 長上下文 LLM 的新基準 Michelangelo 旨在評估模型的推理能力。
🧩 研究表明現有模型在處理複雜推理任務時存在顯著性能下降。
📈 研究人員計劃擴展評估項目,以促進模型推理能力的進一步研究。