阿里巴巴達摩院與中國人民大學近日聯合開源了一款名爲 mPLUG-DocOwl1.5的文檔處理模型,該模型主打無需 OCR 識別即可理解文檔內容,並在多個視覺文檔理解基準測試中取得了領先的性能。
結構信息對於理解富文本圖像(例如文檔、表格和圖表)的語義至關重要。 現有的多模態大型語言模型 (MLLM) 雖然具備文本識別能力,但缺乏對富文本文檔圖像的通用結構理解能力。爲了解決這一問題,mPLUG-DocOwl1.5強調結構信息在視覺文檔理解中的重要性,並提出了 “統一結構學習” 來提升 MLLM 的性能。
該模型的“統一結構學習”涵蓋了5個領域:文檔、網頁、表格、圖表和自然圖像,包括結構感知解析任務和多粒度文本定位任務。 爲了更好地編碼結構信息,研究人員設計了一個簡單有效的視覺到文本模塊 H-Reducer,它不僅可以保留佈局信息,還可以通過卷積合併水平相鄰的圖像塊來減少視覺特徵的長度,使大型語言模型能夠更有效地理解高分辨率圖像。
此外,爲了支持結構學習,研究團隊基於公開可用的數據集構建了一個包含400萬個樣本的綜合訓練集 DocStruct4M,其中包含結構感知文本序列和多粒度文本邊界框對。 爲了進一步激發 MLLM 在文檔領域的推理能力,他們還構建了一個包含2.5萬個高質量樣本的推理微調數據集 DocReason25K。
mPLUG-DocOwl1.5採用兩階段訓練框架,首先進行統一結構學習,然後在多個下游任務中進行多任務微調。通過這種訓練方式,mPLUG-DocOwl1.5在10個視覺文檔理解基準測試中均取得了最先進的性能,在5個基準測試中將7B LLM 的 SOTA 性能提升了10個百分點以上。
目前,mPLUG-DocOwl1.5的代碼、模型和數據集已在 GitHub 上公開發布。
項目地址:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
論文地址:https://arxiv.org/pdf/2403.12895