智譜今日正式發佈並開源了專業級 OCR 模型 GLM-OCR。該模型以0.9B 的輕量化尺寸實現了跨級性能突破,在多項權威基準測試中登頂,旨在解決複雜文檔解析中的真實業務痛點。

核心性能:小尺寸下的 SOTA 表現

儘管參數規模僅爲0.9B,但 GLM-OCR 的表現驚人。在權威文檔解析榜單 OmniDocBench V1.5 中,它以 94.6分的高分奪冠,其性能已逼近通用大模型 Gemini-3-Pro。無論是在文本識別、數學公式推導、複雜表格解析,還是關鍵信息抽取(KIE)方面,均取得了 SOTA(業內最頂尖)表現。

QQ20260203-085726.png

場景突破:直擊複雜文檔痛點

GLM-OCR 針對六大高難業務場景進行了專項優化,表現穩健:

  • 複雜表格: 支持合併單元格與多層表頭,可直接輸出標準 HTML 代碼。

  • 結構化提取: 智能識別卡證票據,輸出標準 JSON 格式。

  • 手寫體與代碼: 完美兼容教育科研中的手寫公式及程序員的代碼截圖。

  • 特殊標識: 具備極高的印章識別與多語言混排處理能力。

QQ20260203-085732.png

極致效率:推理更快,成本更低

在效率與成本控制上,GLM-OCR 展現了極強的商業競爭力:

  • 極速推理: PDF 處理吞吐量達 1.86頁/秒,顯著優於同類模型;支持 vLLM、Ollama 等主流部署方式。

  • 極致性價比: API 價格低至 0.2元/百萬 Tokens。相比傳統 OCR 方案,成本僅爲其1/10,處理一千張 A4掃描件僅需約0.5元。

技術揭祕:多模態架構與強化學習

GLM-OCR 繼承自 GLM-V 系列架構,集成自研 CogViT 視覺編碼器。通過引入**多 Tokens 預測損失(MTP)**與全任務強化學習,模型在複雜版面下的泛化能力顯著提升。其獨特的4倍下采樣策略與 SwiGLU 機制,確保了視覺信息與語言解碼器的高效融合。

目前,GLM-OCR 已在GitHubHugging Face同步開源,智譜開放平臺也已上線相關 API 及優惠包。