近日,IBM 正式發佈了一款名爲 Granite-Docling-258M 的輕量級視覺語言 AI 模型。該模型專爲文件轉換設計,具備強大的多語言支持,包括中文、阿拉伯語和日語,旨在提升文檔處理的效率和準確性。Granite-Docling-258M 的參數量爲2.58億,是一款專爲文檔表格處理而優化的模型。

與傳統的 OCR 軟件相比,Granite-Docling-258M 在識別準確度上有顯著提升。其輸出結果不僅能夠完整保留原始文檔的版面結構,還能有效識別表格、數學公式、列表和代碼塊等多種元素。這一新技術的核心在於 IBM Research 開發的 DocTags,這是一套通用文件結構標記語言,能夠精確描述頁面元素的類型、位置和閱讀順序。
Granite-Docling-258M 在文檔轉換的過程中,首先識別文檔中的各個元素,然後再執行 OCR 識別。這種方法使得內容的提取和輸出更加高效和準確。完成轉換後,用戶可以將內容導出爲 Markdown、JSON、HTML 等多種格式,滿足不同的使用需求。此外,IBM 還計劃將 DocTags 詞彙表納入 Granite 的分詞器和訓練流程,以進一步提升模型的性能。
目前,Granite-Docling-258M 還未達到企業級的應用水平,但 IBM 表示,他們將持續擴展語言的覆蓋範圍,並提升模型的可靠性。未來,IBM 還將致力於增強 DocTags 與 IBM watsonx.ai 模型的兼容性,確保技術的全面應用。
這款新模型的發佈,無疑爲文檔處理領域帶來了新的技術選擇,也爲相關行業的效率提升提供了強有力的支持。
huggingface:https://huggingface.co/ibm-granite/granite-docling-258M
劃重點:
📄 ** 輕量級模型 **:IBM 發佈 Granite-Docling-258M,專爲文件轉換設計。
🔍 ** 高準確度 **:該模型在識別準確度上優於傳統 OCR 軟件,支持多種文檔元素。
🌍 ** 多語言支持 **:Granite-Docling-258M 目前支持中文、阿拉伯語和日語,未來將擴展更多語言。
