近年來,大型語言模型(LLMs)在數據管理領域受到了廣泛關注,應用範圍不斷擴大,包括數據整合、數據庫調優、查詢優化以及數據清洗等。然而,處理非結構化數據,尤其是複雜文檔時,依然面臨許多挑戰。

image.png

目前一些基於 LLM 的非結構化數據處理框架往往更注重降低成本,而忽視了提升處理準確性的問題。這一問題在分析複雜任務時尤爲突出,因爲 LLM 輸出的結果往往無法精確滿足用戶的特定需求。

以加州大學伯克利的調查報道項目爲例,研究人員希望分析大量通過記錄請求獲得的警察記錄,以揭示警員的不當行爲和潛在的程序違規。這項名爲警察不當行爲識別(PMI)的任務,需要處理多種類的文檔,提取並總結關鍵信息,同時在多份文件中進行數據彙總,生成詳細的行爲總結。現有的方法通常僅使用一次 LLM 處理每個文檔,這種單一步驟的映射操作在準確性上常常不足,尤其是當文檔長度超過 LLM 的上下文限制時,重要信息可能會被遺漏。

爲了解決這些問題,加州大學伯克利分校和哥倫比亞大學的研究團隊提出了一個名爲 DocETL 的創新系統。DocETL 旨在優化複雜文檔處理流程,解決現有 LLM 的侷限性。這個系統提供了一個聲明性接口,讓用戶能夠靈活定義處理流程,並利用基於代理的框架進行自動優化。DocETL 的關鍵功能包括爲 LLM 任務量身定製的邏輯重寫流程、代理引導的計劃評估機制,以及一個高效的優化算法,幫助識別出最有潛力的處理計劃。

在對警察不當行爲識別任務進行評估時,DocETL 採用了一組來自加州警察部門的227份文檔,面對着諸如文檔長度超過 LLM 上下文限制等多重挑戰。通過不同的管道變體進行評估,DocETL 顯示出在優化複雜文檔處理任務中的獨特能力。

人類評估與 LLM 評審顯示,DocETL 的輸出準確性比傳統方法提升了1.34倍,表明該系統在處理複雜文檔任務時的重要性及其有效性。

綜上所述,DocETL 作爲一款創新的聲明性系統,不僅能夠有效解決複雜文檔處理中的諸多難題,也爲未來的研究與應用奠定了堅實的基礎。

論文:https://arxiv.org/abs/2410.12189v1

項目:https://github.com/ucbepic/docetl

劃重點:

🌟 LLM 在處理複雜文檔時準確性不足,存在顯著挑戰。  

📄 DocETL 系統爲文檔處理提供了靈活的聲明性接口和自動優化功能。  

🤖 通過人類評估,DocETL 輸出質量顯著提升,提升幅度達到1.34倍。