在自然語言處理領域,長語境理解一直是一個挑戰。儘管大型語言模型(LLMs)在多種語言任務上表現出色,但它們在處理超出其上下文窗口大小的文本時常常受限。爲了克服這一限制,研究者們一直在努力提升LLMs對長文本的理解能力,這不僅對於學術研究具有重要意義,對於現實世界的應用場景,如特定領域的知識理解、長對話生成、長故事或代碼生成等,同樣至關重要。

在這項研究中,作者們提出了一個新的基準測試——LooGLE(Long Context Generic Language Evaluation),專爲評估LLMs的長語境理解能力而設計。這個基準測試包含了776篇2022年之後的超長文檔,每篇文檔平均包含19.3k個單詞,並且有6448個測試實例,涵蓋了多個領域,如學術、歷史、體育、政治、藝術、事件和娛樂等。

image.png

LooGLE的特點

超長的真實文檔:ooGLE中的文檔長度遠超LLMs的上下文窗口大小,這要求模型能夠記憶和理解更長的文本。

手動設計的長短依賴任務:基準測試包含了7個主要任務,包括短依賴和長依賴任務,以評估LLMs對長短依賴內容的理解能力。

相對新穎的文檔:所有文檔都是2022年之後發佈的,這確保了大多數現代LLMs在預訓練期間沒有接觸過這些文檔,從而更準確地評估它們的語境學習能力。

跨領域通用數據:基準測試的數據來源於流行的開源文檔,如arXiv論文、維基百科文章、電影和電視劇本等。

研究者們對8種最先進的LLMs進行了綜合評估,結果揭示了以下關鍵發現:

商業模型在性能上超過了開源模型。

LLMs在短依賴任務上表現出色,但在更復雜的長依賴任務上存在挑戰。

基於上下文學習和思維鏈的方法在長語境理解上僅提供了有限的改進。

基於檢索的技術在短問題回答中顯示出顯著的優勢,而通過優化的Transformer架構或位置編碼來擴展上下文窗口長度的策略對長語境理解的影響有限。

LooGLE基準測試不僅爲評估長語境LLMs提供了一個系統和全面的評價方案,而且爲未來開發具有“真正長語境理解”能力的模型提供了指導。所有評估代碼已在GitHub上發佈,供研究社區參考和使用。

論文地址:https://arxiv.org/pdf/2311.04939

代碼地址:https://github.com/bigai-nlco/LooGLE