3月11日,百度AI宣佈開源新一代表格識別解決方案PP-TableMagic,爲表格結構化信息提取領域帶來重大突破。PP-TableMagic旨在解決傳統表格識別技術在複雜場景下的侷限性,通過創新的多模型組網架構,實現了高精度的端到端表格識別,並支持全場景高定製化的模型微調。

在當今數字化時代,大量重要表格數據仍以非結構化形式存在,如掃描文檔中的統計表圖片和PDF文件中的金融財報數據。這些數據無法直接進行自動化處理,而表格識別技術成爲文檔智能理解和數據分析的關鍵。然而,傳統通用表格識別模型在面對複雜表格格式時往往表現不佳,難以滿足不同應用場景的需求。爲此,百度飛槳團隊推出了PP-TableMagic,採用“表格分類+表格結構識別+單元格檢測”的多模型串聯組網方案,顯著提升了表格識別的精度和適應性。

微信截圖_20250312082522.png

PP-TableMagic的核心優勢在於其創新的架構設計。該方案採用雙流架構,將表格分爲有線表和無線表兩大類,然後將端到端表格識別任務拆解爲單元格檢測和表格結構識別兩個子任務,最後通過自優化結果融合算法生成完整的HTML表格預測結果。其中,飛槳團隊自研的輕量級表格分類模型PP-LCNet_x1_0_table_cls能夠高精度地對有線表和無線表進行分類;業界首個開源表格單元格檢測模型RT-DETR-L_table_cell_det則實現了對各種類型表格單元格的精確定位;而新一代表格結構識別模型SLANeXt則在表格HTML結構解析方面表現出色,相比前代模型SLANet和SLANet_plus,SLANeXt使用了更強的特徵表徵能力的Vary-ViT-B作爲視覺編碼器,進一步提升了表格結構識別的準確性。

在實際應用中,PP-TableMagic不僅能夠直接處理表格,還能通過定製化的模型微調滿足不同場景的需求。與傳統端到端表格識別模型的微調相比,PP-TableMagic的多模型組網架構允許用戶僅對關鍵模型進行微調,從而避免了“此消彼長”的性能問題,同時減少了數據標註的工作量。此外,對於資深開發者而言,PP-TableMagic的架構還支持分支級調整,能夠針對特定類型的表格數據進行優化,進一步提升整體識別能力。

爲了幫助用戶快速上手,PP-TableMagic提供了詳細的安裝指南和使用教程。用戶可以通過PaddleX提供的Python API輕鬆調用模型,進行表格識別和結果導出。此外,PP-TableMagic還支持高性能推理、服務化部署以及端側部署,能夠滿足不同用戶的需求。百度飛槳團隊還計劃在3月13日舉辦線上課程,深度解析PP-TableMagic的技術細節,並開設產業場景實戰營,帶領用戶體驗從數據準備到模型部署的完整開發流程。

開源地址:https://github.com/PaddlePaddle/PaddleX/blob/release/3.0-rc/docs/pipeline_usage/tutorials/ocr_pipelines/table_recognition_v2.md