DeepSeek 宣佈推出新一代文檔識別模型 DeepSeek-OCR2。 該模型在視覺編碼器設計上實現了重大突破,旨在解決傳統模型在處理複雜版式文檔時邏輯感缺失的問題。

DeepSeek-OCR2的核心亮點在於自研的 DeepEncoder V2編碼器。 不同於傳統視覺模型按照從左到右、從上到下的固定柵格順序處理圖像,新模型引入了“視覺因果流”概念。 它能夠根據圖像語義動態調整信息的處理順序,在識別文字前先對視覺內容進行智能排序,從而使機器的閱讀邏輯更貼合人類對錶格、公式及複雜文檔的理解方式。
在架構上,模型沿用了高效的編解碼框架。 圖像經 DeepEncoder V2進行語義建模和順序重組後,交由混合專家架構(MoE)語言模型進行解碼。 實驗數據表明,在 OmniDocBench v1.5基準測試中,DeepSeek-OCR2的整體得分達到91.09%,較前代提升了3.73%。 尤其在閱讀順序準確度方面,其編輯距離顯著降低,表明模型對內容結構的還原能力更強。
此外,DeepSeek-OCR2在實際應用中也展現出更強的穩定性。 在 PDF 批處理及在線日誌數據的測試中,識別重複率均有明顯下降。 這意味着模型在保持低資源開銷的同時,提供了更高質量、更具邏輯性的識別輸出。
劃重點:
動態語義排序:DeepSeek-OCR2通過“視覺因果流”技術,打破了傳統固定柵格的識別順序,實現了基於語義的動態閱讀。
性能跨越式提升:在權威基準測試中,新模型識別性能提升3.73%,閱讀順序準確度顯著增強。
高效 MoE 架構:模型繼續採用 MoE 架構解碼,在不增加算力負擔的前提下,實現了更高的識別精度與可靠性。
