微軟研究人員近期發佈了一項名爲SpreadsheetLLM的創新研究,旨在解決大語言模型(LLM)在解析電子表格時遇到的難題。

根據7月12日發表在Arxiv上的論文,SpreadsheetLLM通過一種編碼框架,使得LLM能夠“讀懂”電子表格的內容。這一研究有望顯著提升電子表格的數據管理和分析效率,並且使得用戶可以用自然語言向AI提出問題,而無需掌握複雜的公式和操作。

image.png

論文地址:https://arxiv.org/html/2407.09025v1#abstract

電子表格對LLM的理解構成了多方面的挑戰。首先,電子表格的體積可能非常龐大,超出了LLM一次性處理的字符限制。其次,電子表格採用的是二維佈局和結構,而LLM擅長處理的是線性的、順序的輸入。最後,LLM通常沒有專門的訓練來解讀單元格地址及特定的電子表格格式。

微軟的SpreadsheetLLM技術由兩個主要部分組成。第一部分是SheetCompressor,它通過縮減電子表格的複雜性,使其更易於被LLM理解。SheetCompressor包括三個模塊:結構錨點、減少令牌數量的方法和通過聚類相似單元格提升效率。利用這些模塊,微軟團隊將編碼所需的令牌數量減少了96%,並取得了12.3%的改進效果。第二部分是Chain of Spreadsheet,它教會LLM如何在壓縮後的電子表格中找到相關信息並生成回答。

image.png

這一技術的成功應用將顯著提升微軟C o p i l o t在Excel中的功能,使其能夠處理更復雜的數據分析任務。然而,目前這一方法仍然面臨生成數據準確性和高計算資源消耗等問題。研究團隊未來的計劃包括對單元格背景色的編碼和加深對單元格內容關聯性的理解。

劃重點:

📊 **電子表格對大語言模型(LLM)的挑戰**:電子表格結構複雜且二維佈局,超出了LLM通常處理的線性輸入範圍。  

🔍 **SpreadsheetLLM技術解析**:微軟提出了SheetCompressor和Chain of Spreadsheet兩大核心技術,大幅提升了LLM對電子表格的理解能力。  

🛠️ **對微軟AI工具的影響**:SpreadsheetLLM有望增強微軟C o p i l o t在Excel中的應用能力,但目前仍面臨生成數據準確性和計算資源消耗