最近,研究人員開發了一種新的通用光學字符識別(OCR)模型,名爲 GOT(通用 OCR 理論)。在他們的論文中,首次提出了 “OCR2.0” 的概念,這個新模型旨在將傳統 OCR 系統的優點與大型語言模型的強大功能結合起來。
GOT 的架構相當先進,包含了一個大約8000萬參數的圖像編碼器和一個500萬參數的解碼器。圖像編碼器能夠將1024x1024像素的圖像壓縮成 tokens,而解碼器則負責將這些 tokens 轉換成最長可達8000個字符的文本。通過這種方式,OCR2.0模型能夠處理的不僅僅是簡單的文本。
這項新技術的魅力在於它能夠識別並轉換多種類型的視覺信息,包括英文和中文的場景文本和文檔文本、數學與化學公式、音樂符號、簡單幾何圖形以及包含組件的圖表等。這樣的功能無疑爲科學、音樂和數據分析等領域的自動化處理帶來了新的可能性。
爲了優化訓練過程,研究團隊首先僅針對文本識別任務訓練了編碼器,隨後引入了阿里巴巴的 Qwen-0.5B 作爲解碼器,並利用多樣化的合成數據進行了模型的微調。他們通過使用 LaTeX、Mathpix-markdown-it、TikZ、Verovio、Matplotlib 和 Pyecharts 等渲染工具生成了數百萬對圖像和文本的訓練數據。
GOT 的模塊化設計使得未來可以靈活地擴展新功能,而不需要重新訓練整個模型,這樣的設計大大提高了系統的更新效率。此外,研究者們表示,GOT 在各類 OCR 任務中表現優異,尤其是在文檔和場景文本識別方面,甚至在圖表識別上超越了一些專用模型和大型語言模型。
值得一提的是,研究團隊已將 GOT 的免費演示和代碼在 Hugging Face 上發佈,供其他人使用和進一步開發。這個新模型無疑將推動 OCR 技術的發展,開啓更爲廣泛的應用前景。
demo入口:https://huggingface.co/spaces/stepfun-ai/GOT_official_online_demo
劃重點:
📌 GOT(通用 OCR 理論)是一種新型 OCR 模型,將傳統 OCR 系統與大型語言模型相結合,稱爲 OCR2.0。
📌 該模型能識別和轉換多種視覺信息,包括文本、公式、音樂符號和圖表,適用領域廣泛。
📌 模塊化設計和合成數據訓練使 GOT 具備靈活擴展能力,並在多項 OCR 任務中表現出色。