大型語言模型(LLM)的崛起爲人工智能應用帶來了革命性的變化,然而,它們在處理表格數據方面卻存在着明顯的不足。 浙江大學計算創新研究院的研究團隊針對這一問題,推出了一款名爲 TableGPT2的全新模型,它能夠直接且高效地整合和處理表格數據,爲商業智能(BI)和其他數據驅動型應用開闢了新的可能性。
TableGPT2的核心創新在於其獨特的表格編碼器,該編碼器專門設計用於捕獲表格的結構信息和單元格內容信息,從而增強模型處理現實應用中常見的模糊查詢、缺失列名和不規則表格的能力。 TableGPT2基於 Qwen2.5架構,並經過了大規模的預訓練和微調,涉及超過59.38萬個表格和236萬個高質量的查詢-表格-輸出元組,這是先前研究中前所未有的表格相關數據規模。
爲了提升 TableGPT2的編碼和推理能力,研究人員對其進行了持續預訓練(CPT),其中80% 的數據是精心註釋的代碼,以確保其具備強大的編碼能力。 此外,他們還收集了大量的推理數據和包含特定領域知識的教科書,以增強模型的推理能力。 最終的 CPT 數據包含860億個經過嚴格篩選的詞符,這爲 TableGPT2處理複雜的 BI 任務和其他相關任務提供了必要的編碼和推理能力。
爲了解決 TableGPT2在適應特定 BI 任務和場景方面的侷限性,研究人員對其進行了監督微調(SFT)。 他們構建了一個涵蓋各種關鍵和現實場景的數據集,包括多輪對話、複雜推理、工具使用和高度業務化的查詢。 該數據集結合了人工標註和專家驅動的自動標註流程,確保了數據的質量和相關性。 SFT 過程共使用了236萬個樣本,進一步完善了模型,使其能夠滿足 BI 和其他涉及表格的環境的特定需求。
TableGPT2還創新性地引入了語義表格編碼器,該編碼器將整個表格作爲輸入,爲每一列生成一組緊湊的嵌入向量。 這種架構針對表格數據的獨特屬性進行了定製,通過雙向注意力機制和分層特徵提取過程,有效地捕捉了行和列之間的關係。 此外,還採用了列式對比學習方法,鼓勵模型學習有意義的、結構感知的表格語義表示。
爲了將 TableGPT2與企業級數據分析工具無縫集成,研究人員還設計了代理工作流運行時框架。 該框架包含三個核心組件:運行時提示工程、安全代碼沙箱和代理評估模塊,共同增強了代理的能力和可靠性。 工作流通過模塊化步驟(輸入規範化、代理執行和工具調用)支持複雜的數據分析任務,這些步驟協同工作以管理和監控代理的性能。 通過整合用於高效上下文檢索的檢索增強生成(RAG)和用於安全執行的代碼沙箱,該框架確保 TableGPT2在實際問題中提供準確、上下文相關的見解。
研究人員在各種廣泛使用的表格和通用基準測試中對 TableGPT2進行了廣泛的評估,結果表明,TableGPT2在表格理解、處理和推理方面表現出色,70億參數模型的平均性能提升了35.20%,720億參數模型的平均性能提升了49.32%,同時保持了強大的通用性能。 爲了進行公平的評估,他們僅將 TableGPT2與開源的基準中性模型(如 Qwen 和 DeepSeek)進行比較,確保了模型在各種任務上的均衡、多功能性能,而不會過度擬合任何單個基準測試。 他們還引入並部分發布了一個新的基準測試——RealTabBench,該基準測試強調非常規表格、匿名字段和複雜查詢,更符合現實場景。
儘管 TableGPT2在實驗中取得了最先進的性能,但在將 LLM 部署到現實世界的 BI 環境中仍然存在挑戰。 研究人員指出,未來的研究方向包括:
特定領域編碼:使 LLM 能夠快速適應企業特定的領域特定語言(DSL)或僞代碼,以更好地滿足企業數據基礎設施的特定需求。
多代理設計:探索如何有效地將多個 LLM 集成到一個統一的系統中,以處理現實應用的複雜性。
多功能表格處理:改進模型處理不規則表格的能力,例如 Excel 和 Pages 中常見的合併單元格和不一致的結構,以更好地處理現實世界中各種形式的表格數據。
TableGPT2的推出標誌着 LLM 在處理表格數據方面取得了重大進展,爲商業智能和其他數據驅動型應用帶來了新的可能性。 相信隨着研究的不斷深入,TableGPT2將在未來的數據分析領域發揮越來越重要的作用。
論文地址:https://arxiv.org/pdf/2411.02059v1