百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

10月16日，百度飛槳（PaddlePaddle）團隊正式發佈了最新視覺語言模型 PaddleOCR-VL，一經上線便引發全球 OCR（光學字符識別）領域轟動。該模型以 0.9B 參數規模 在權威評測 OmniDocBench V1.5 中取得 92.56分 的成績，超越包括 DeepSeek-OCR 在內的所有主流模型，成功登頂全球 OCR 榜單。

截至10月21日，Huggingface 全球模型趨勢榜（Trending Models）前3名均被 OCR 模型包攬:

🥇PaddleOCR-VL（百度飛槳）
🥈DeepSeek-OCR
🥉NanonetOCR

其中，百度的 PaddleOCR-VL 已連續 5天位居榜首，成爲當前最受關注的開源 OCR 模型。

PaddleOCR-VL 支持 109種語言識別，可精準解析文本、表格、公式與圖表，並具備文檔語義結構重建能力。這意味着它不僅能“識字”，還能“讀懂”複雜文檔內容，在科研論文、發票識別、知識抽取等領域展現出極高實用價值。

值得一提的是，DeepSeek 團隊在其論文中也特別致謝 PaddleOCR，並透露其訓練數據部分使用了 PaddleOCR 進行標註。這一細節揭示了當前業界 OCR 模型繁榮背後的真實邏輯:百度、DeepSeek 與上海 AI Lab 等機構幾乎在同時開源 OCR 模型，目的並非僅是比拼識別性能，而是爲大模型訓練清洗、標註數據提供基礎能力。

換句話說，這場“OCR 軍備競賽”的核心，不只是識別誰更準，而是誰能更快地讓 AI 看懂世界的文字與圖像。

IBM發佈Granite 4.0 3B Vision：企業級文檔數據提取的新利器

IBM發佈Granite 4.0 3B Vision視覺語言模型，擁有30億參數，專爲企業級複雜文檔數據提取優化。該模型針對金融、法律、醫療等行業非結構化數據處理難題，在複雜表格、掃描件及多模態佈局文檔中表現突出，通過結合視覺理解與語言生成，精準識別並提取關鍵信息。

一張打印紙竟能“劫持”自動駕駛：視覺語言模型暴露嚴重安全漏洞

自動駕駛汽車依賴路標識別，但加州大學研究揭示其致命弱點：攻擊者通過打印特定文本的標識，就能利用視覺語言模型漏洞，誘導車輛做出危險決策，甚至駛向行人。這種“CHAI”攻擊暴露了AI系統對視覺指令的過度依賴風險。

百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

相關推薦

IBM發佈Granite 4.0 3B Vision：企業級文檔數據提取的新利器

AI 視覺模型深入“搬磚”一線：Bedrock Robotics 聯手 AWS 破解建築業用工荒

挖掘視頻“暗數據”！谷歌前員工創辦 InfiniMind，助企業解鎖 PB 級視頻資產

一張打印紙竟能“劫持”自動駕駛：視覺語言模型暴露嚴重安全漏洞

英偉達發佈首個自動駕駛推理模型，押注下一代 AI 大腦

百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

相關推薦

IBM發佈Granite 4.0 3B Vision：企業級文檔數據提取的新利器

AI 視覺模型深入“搬磚”一線：Bedrock Robotics 聯手 AWS 破解建築業用工荒

​ 挖掘視頻“暗數據”！谷歌前員工創辦 InfiniMind，助企業解鎖 PB 級視頻資產

一張打印紙竟能“劫持”自動駕駛：視覺語言模型暴露嚴重安全漏洞

英偉達發佈首個自動駕駛推理模型，押注下一代 AI 大腦

挖掘視頻“暗數據”！谷歌前員工創辦 InfiniMind，助企業解鎖 PB 級視頻資產