7月7日,百度AI團隊宣佈PaddleOCR3.1版本正式上線,在多語種識別、複雜文檔翻譯及大模型連接能力上實現三大升級。新版本支持37種語言的文本識別,平均精度提升超30%,並推出文檔翻譯產線與MCP服務器功能,助力開發者高效構建AI應用。
針對全球化場景下的多語言需求,PaddleOCR3.1新增PP-OCRv5多語種模型,覆蓋法語、西班牙語、俄語等37種語言。通過融合文心4.5多模態大模型的視覺與文本理解能力,模型可自動完成高置信度文本檢測與數據標註,解決多語種數據稀缺痛點。實測數據顯示,新模型在拉丁語系及東斯拉夫語言場景中的識別準確率提升超30%,例如韓文識別錯誤率從8.7%降至2.1%,俄文複雜排版文檔的解析速度提升2倍。
結合PP-StructureV3文檔解析引擎與文心大模型,PaddleOCR3.1推出PP-DocTranslation翻譯產線。該工具可智能識別PDF、圖片中的表格、公式、手寫文字等複雜元素,並轉換爲Markdown格式後進行多語言翻譯。針對法律、醫療等專業領域,系統支持用戶上傳術語對照表,實現“關鍵詞彙”的精細化翻譯。例如,某跨國藥企使用該功能後,藥品說明書翻譯效率提升40%,專業術語一致性達99.2%。
爲降低AI應用開發門檻,PaddleOCR3.1推出MCP(Model Context Protocol)服務器功能,支持通過標準化協議將OCR能力無縫接入下游應用。開發者僅需幾步即可搭建MCP服務,通過本地Python庫、飛槳星河社區或自託管服務調用核心功能,包括圖像文字識別、文檔版面分析等。
開源地址:https://github.com/PaddlePaddle/PaddleOCR