TableGPT2：讓表格數據“開口說話”！

大型語言模型（LLM）的崛起爲人工智能應用帶來了革命性的變化，然而，它們在處理表格數據方面卻存在着明顯的不足。浙江大學計算創新研究院的研究團隊針對這一問題，推出了一款名爲 TableGPT2的全新模型，它能夠直接且高效地整合和處理表格數據，爲商業智能(BI)和其他數據驅動型應用開闢了新的可能性。

TableGPT2的核心創新在於其獨特的表格編碼器，該編碼器專門設計用於捕獲表格的結構信息和單元格內容信息，從而增強模型處理現實應用中常見的模糊查詢、缺失列名和不規則表格的能力。 TableGPT2基於 Qwen2.5架構，並經過了大規模的預訓練和微調，涉及超過59.38萬個表格和236萬個高質量的查詢-表格-輸出元組，這是先前研究中前所未有的表格相關數據規模。

爲了提升 TableGPT2的編碼和推理能力，研究人員對其進行了持續預訓練（CPT），其中80% 的數據是精心註釋的代碼，以確保其具備強大的編碼能力。此外，他們還收集了大量的推理數據和包含特定領域知識的教科書，以增強模型的推理能力。最終的 CPT 數據包含860億個經過嚴格篩選的詞符，這爲 TableGPT2處理複雜的 BI 任務和其他相關任務提供了必要的編碼和推理能力。

爲了解決 TableGPT2在適應特定 BI 任務和場景方面的侷限性，研究人員對其進行了監督微調（SFT）。他們構建了一個涵蓋各種關鍵和現實場景的數據集，包括多輪對話、複雜推理、工具使用和高度業務化的查詢。該數據集結合了人工標註和專家驅動的自動標註流程，確保了數據的質量和相關性。 SFT 過程共使用了236萬個樣本，進一步完善了模型，使其能夠滿足 BI 和其他涉及表格的環境的特定需求。

TableGPT2還創新性地引入了語義表格編碼器，該編碼器將整個表格作爲輸入，爲每一列生成一組緊湊的嵌入向量。這種架構針對表格數據的獨特屬性進行了定製，通過雙向注意力機制和分層特徵提取過程，有效地捕捉了行和列之間的關係。此外，還採用了列式對比學習方法，鼓勵模型學習有意義的、結構感知的表格語義表示。

爲了將 TableGPT2與企業級數據分析工具無縫集成，研究人員還設計了代理工作流運行時框架。該框架包含三個核心組件:運行時提示工程、安全代碼沙箱和代理評估模塊，共同增強了代理的能力和可靠性。工作流通過模塊化步驟（輸入規範化、代理執行和工具調用）支持複雜的數據分析任務，這些步驟協同工作以管理和監控代理的性能。通過整合用於高效上下文檢索的檢索增強生成(RAG)和用於安全執行的代碼沙箱，該框架確保 TableGPT2在實際問題中提供準確、上下文相關的見解。

研究人員在各種廣泛使用的表格和通用基準測試中對 TableGPT2進行了廣泛的評估，結果表明，TableGPT2在表格理解、處理和推理方面表現出色，70億參數模型的平均性能提升了35.20%，720億參數模型的平均性能提升了49.32%，同時保持了強大的通用性能。爲了進行公平的評估，他們僅將 TableGPT2與開源的基準中性模型（如 Qwen 和 DeepSeek）進行比較，確保了模型在各種任務上的均衡、多功能性能，而不會過度擬合任何單個基準測試。他們還引入並部分發布了一個新的基準測試——RealTabBench，該基準測試強調非常規表格、匿名字段和複雜查詢，更符合現實場景。

儘管 TableGPT2在實驗中取得了最先進的性能，但在將 LLM 部署到現實世界的 BI 環境中仍然存在挑戰。研究人員指出，未來的研究方向包括:

特定領域編碼:使 LLM 能夠快速適應企業特定的領域特定語言（DSL）或僞代碼，以更好地滿足企業數據基礎設施的特定需求。

多代理設計:探索如何有效地將多個 LLM 集成到一個統一的系統中，以處理現實應用的複雜性。

多功能表格處理:改進模型處理不規則表格的能力，例如 Excel 和 Pages 中常見的合併單元格和不一致的結構，以更好地處理現實世界中各種形式的表格數據。

TableGPT2的推出標誌着 LLM 在處理表格數據方面取得了重大進展，爲商業智能和其他數據驅動型應用帶來了新的可能性。相信隨着研究的不斷深入，TableGPT2將在未來的數據分析領域發揮越來越重要的作用。

論文地址：https://arxiv.org/pdf/2411.02059v1

TableGPT2：讓表格數據“開口說話”！

相關推薦

OpenAI聯合創始人Andrej Karpathy宣佈加盟Anthropic，發力下一代LLM研發

日本科學家發佈“Sui”編程語言，宣稱能讓 LLM100% 準確編寫代碼

醫療AI新突破！南洋理工發佈首個電子病歷處理評測標準

MIT 推出新方法，顯著提升大型語言模型計算效率

OpenAI 推出 AI “懺悔”框架:旨在訓練模型承認不當行爲，提高誠實度