10月16日,百度飛槳(PaddlePaddle)團隊正式發佈了最新視覺語言模型 PaddleOCR-VL,一經上線便引發全球 OCR(光學字符識別)領域轟動。該模型以 0.9B 參數規模 在權威評測 OmniDocBench V1.5 中取得 92.56分 的成績,超越包括 DeepSeek-OCR 在內的所有主流模型,成功登頂全球 OCR 榜單。

截至10月21日,Huggingface 全球模型趨勢榜(Trending Models)前3名均被 OCR 模型包攬:
🥇PaddleOCR-VL(百度飛槳)
🥈DeepSeek-OCR
🥉NanonetOCR
其中,百度的 PaddleOCR-VL 已連續 5天位居榜首,成爲當前最受關注的開源 OCR 模型。
PaddleOCR-VL 支持 109種語言識別,可精準解析文本、表格、公式與圖表,並具備文檔語義結構重建能力。這意味着它不僅能“識字”,還能“讀懂”複雜文檔內容,在科研論文、發票識別、知識抽取等領域展現出極高實用價值。
值得一提的是,DeepSeek 團隊在其論文中也特別致謝 PaddleOCR,並透露其訓練數據部分使用了 PaddleOCR 進行標註。這一細節揭示了當前業界 OCR 模型繁榮背後的真實邏輯:百度、DeepSeek 與上海 AI Lab 等機構幾乎在同時開源 OCR 模型,目的並非僅是比拼識別性能,而是爲大模型訓練清洗、標註數據提供基礎能力。
換句話說,這場“OCR 軍備競賽”的核心,不只是識別誰更準,而是誰能更快地讓 AI 看懂世界的文字與圖像。
