最近,阿里巴巴的 AI 研究團隊在文檔理解領域取得了令人矚目的進展,他們推出了 mPLUG-DocOwl1.5,這是一款在無OCR(光學字符識別)文檔理解任務上表現卓越的尖端模型。
過去,處理文檔理解任務時,我們通常依賴 OCR 技術來從圖像中提取文本,但這往往會受到複雜佈局和視覺噪聲的困擾。而 mPLUG-DocOwl1.5則通過一種全新的統一結構學習框架,直接從圖像中學習理解文檔,巧妙地避開了這一瓶頸。
該模型通過分析文檔在不同領域的佈局和組織能力,涵蓋了普通文檔、表格、圖表、網頁和自然圖像等五個領域。它不僅能準確識別文字,還能在理解文檔結構時,運用空格和換行符等元素。
對於表格,模型能生成結構化的 Markdown 格式,而在解析圖表時,它通過理解圖例、座標軸和數值之間的關係,將其轉化爲數據表。此外,mPLUG-DocOwl1.5還具備從自然圖像中提取文本的能力。
在文本本地化方面,mPLUG-DocOwl1.5能夠識別和定位單詞、短語、行和塊,確保文本與圖像區域之間的精確對齊。而其背後的 H-Reducer 架構則通過卷積操作橫向合併視覺特徵,保持空間佈局的同時減少序列長度,從而提升了處理效率。
爲了訓練這個模型,研究團隊使用了兩個精心挑選的數據集。DocStruct4M 是一個大規模的數據集,專注於統一結構學習,DocReason25K 則通過分步問答測試模型的推理能力。
結果顯示,mPLUG-DocOwl1.5在十個基準測試中創下了新紀錄,相比同類模型在一半任務上獲得了超過10分的提升。此外,它還展現出優秀的語言推理能力,能夠爲其答案生成詳細的分步解釋。
儘管 mPLUG-DocOwl1.5在多個方面都取得了顯著進展,但研究者們也意識到,模型仍有改進空間,尤其是在處理不一致或錯誤的陳述方面。未來,團隊希望能夠進一步擴展統一結構學習框架,涵蓋更多的文檔類型和任務,推動文檔 AI 的進一步發展。
論文:https://arxiv.org/abs/2403.12895
代碼:https://github.com/X-PLUG/mPLUG-DocOwl/tree/main/DocOwl1.5
劃重點:
📄 mPLUG-DocOwl1.5是一在無需 OCR 文檔理解任務上表現卓越的 AI 模型。
🔍 該模型能分析文檔佈局,涵蓋多種文檔類型,能夠從圖像中直接學習理解。
📈 mPLUG-DocOwl1.5在十個基準測試中創下新紀錄,展示出優越的語言推理能力。