近日,百度正式發佈並開源其自研的多模態文檔解析模型 PaddleOCR-VL。這一模型在全球權威的文檔解析評測榜單 OmniBenchDoc V1.5中,以92.6分的佳績榮登綜合性能全球第一的寶座,展現出其在文本、表格、公式和閱讀順序四大核心能力上的卓越表現。
PaddleOCR-VL 的核心模型參數僅爲0.9B,具有輕量高效的特點,能夠在極低的計算開銷下,精準識別包括文本、手寫漢字、表格、公式及圖表等複雜元素。該模型支持109種語言,涵蓋中文、英語、法語、日語、俄語、阿拉伯語和西班牙語等多種語言場景,適用於政企文檔管理、知識檢索、檔案數字化以及科研信息抽取等多種智能文檔處理任務。

作爲文心4.5的衍生模型,PaddleOCR-VL-0.9B 通過融合 NaViT 動態分辨率視覺編碼器與 ERNIE-4.5-0.3B 語言模型,成功實現了在精度和效率上的雙重突破。具體而言,該模型在 OmniDocBench v1.5上的表現極爲亮眼,文本編輯距離爲0.035,公式識別的 CDM 爲91.43,表格的 TEDS 達到了93.52,閱讀順序預測誤差值爲0.043,這些數據展示了其在複雜文檔、手寫稿及歷史檔案識別等高難度場景中的穩定性和可靠性。

在推理速度方面,PaddleOCR-VL 在一張 A100GPU 上每秒可處理1881個 Token,相較於其他主流模型,推理速度有顯著提升,較 MinerU2.5快14.2%,比 dots.ocr 更是提升了253.01%。這一表現使得 PaddleOCR-VL 在 OCR 技術中樹立了新的標杆。

與傳統 OCR 技術不同,PaddleOCR-VL 能夠如同人類一樣理解複雜的版面結構,精確提取財報表格、數學公式和課堂筆記等多元信息,並自動恢復符合人類閱讀習慣的順序,確保信息傳達的準確性和邏輯的清晰性。其創新的兩階段架構,第一階段負責版面檢測與閱讀順序預測,第二階段則進行文本、表格、公式等元素的識別與結構化輸出,這種設計顯著提高了識別的穩定性和效率。
