7月7日,百度AI团队宣布PaddleOCR3.1版本正式上线,在多语种识别、复杂文档翻译及大模型连接能力上实现三大升级。新版本支持37种语言的文本识别,平均精度提升超30%,并推出文档翻译产线与MCP服务器功能,助力开发者高效构建AI应用。

针对全球化场景下的多语言需求,PaddleOCR3.1新增PP-OCRv5多语种模型,覆盖法语、西班牙语、俄语等37种语言。通过融合文心4.5多模态大模型的视觉与文本理解能力,模型可自动完成高置信度文本检测与数据标注,解决多语种数据稀缺痛点。实测数据显示,新模型在拉丁语系及东斯拉夫语言场景中的识别准确率提升超30%,例如韩文识别错误率从8.7%降至2.1%,俄文复杂排版文档的解析速度提升2倍。

微信截图_20250708091203.png

结合PP-StructureV3文档解析引擎与文心大模型,PaddleOCR3.1推出PP-DocTranslation翻译产线。该工具可智能识别PDF、图片中的表格、公式、手写文字等复杂元素,并转换为Markdown格式后进行多语言翻译。针对法律、医疗等专业领域,系统支持用户上传术语对照表,实现“关键词汇”的精细化翻译。例如,某跨国药企使用该功能后,药品说明书翻译效率提升40%,专业术语一致性达99.2%。

为降低AI应用开发门槛,PaddleOCR3.1推出MCP(Model Context Protocol)服务器功能,支持通过标准化协议将OCR能力无缝接入下游应用。开发者仅需几步即可搭建MCP服务,通过本地Python库、飞桨星河社区或自托管服务调用核心功能,包括图像文字识别、文档版面分析等。

开源地址:https://github.com/PaddlePaddle/PaddleOCR