2025年5月20日,百度飛槳團隊正式發佈了PaddleOCR3.0版本,並對外開源。這一新版本在文字識別精度、多語種支持、手寫體識別以及高精度文檔解析等方面取得了顯著進展,進一步提升了PaddleOCR在OCR領域的技術實力和應用價值。
PaddleOCR自發布以來,憑藉其學術前沿算法和產業落地實踐,受到了產學研各方的喜愛,並被廣泛應用於衆多知名開源項目。此次發佈的PaddleOCR3.0全面適配了飛槳框架3.0正式版,不僅提升了文字識別精度,還支持多文字類型識別和手寫體識別,滿足了大模型應用對複雜文檔高精度解析的需求。此外,結合文心大模型4.5Turbo,PaddleOCR3.0顯著提升了關鍵信息抽取精度,並新增了對崑崙芯、昇騰等國產硬件的支持。
PaddleOCR3.0的核心亮點之一是全場景文字識別模型PP-OCRv5。該模型實現了單一模型支持簡體中文、繁體中文、中文拼音、英文、日文五種文字類型,以及手寫、豎版、拼音、生僻字等複雜文本場景的識別。與上一代相比,PP-OCRv5的整體識別精度提升了13個百分點,達到了業界領先水平。PP-OCRv5通過統一模型架構實現了多種文字類型的無縫識別,簡化了部署流程,提升了識別的總體精度和速度。
在文檔解析方面,PaddleOCR3.0推出了通用文檔解析方案PP-StructureV3。該方案強化了版面區域檢測、表格識別、公式識別的能力,增加了圖表理解和多欄閱讀順序的恢復能力,並可以將結果轉換爲Markdown和JSON格式。PP-StructureV3在OmniDocBench基準測試中領先衆多開源和閉源方案,展現了其在多場景、多版式PDF高精度解析方面的強大能力。
此外,PaddleOCR3.0還發布了智能文檔理解方案PP-ChatOCRv4。該方案原生支持文心大模型4.5Turbo,關鍵信息抽取精度相比上一代提升了15個百分點。PP-ChatOCRv4結合了大模型和小模型的優勢,支持離線使用多模態文檔理解模型PP-DocBee2,能夠一站式解決版面分析、生僻字、多頁PDF、表格、印章識別等複雜文檔信息抽取問題。
PaddleOCR3.0的發佈,不僅體現了百度在OCR技術上的持續創新,也爲廣大開發者提供了更加強大和易用的工具,助力開發者快速落地AI應用。
開源地址:
https://github.com/PaddlePaddle/PaddleOCR