在數字化時代,將圖像中的文字內容快速轉換成可編輯文本是一個常見且重要的需求。現在,一項名爲GOT(通用光學字符識別理論)的新型光學字符識別(OCR)模型的問世,標誌着OCR技術邁入了2.0時代。這一創新模型結合了傳統OCR系統與大型語言模型的優勢,旨在打造一個更高效、更智能的文本識別工具。
GOT模型採用了一種創新的端到端架構,這一設計不僅節省資源,還極大地擴展了識別能力,使其不僅限於文本識別。該模型由一個參數約8000萬的圖像編碼器和一個參數約500萬的解碼器組成。圖像編碼器能夠將高達1024x1024像素的圖像壓縮成數據單元,而解碼器則將這些數據轉換爲長達8000字符的文本。
GOT的強大之處在於其全能性,不僅能識別轉換英文和中文文檔及場景文本,還能處理數學化學公式、音樂符號、簡單幾何圖形及各種圖表。這使得GOT成爲一個真正的多面手。
爲了訓練這一模型,研究團隊首先集中於文本識別任務,然後採用阿里巴巴的Qwen-0.5B作爲解碼器,並通過多種合成數據進行微調。他們使用LaTeX、Mathpix-markdown-it和Matplotlib等專業渲染工具生成了數百萬圖像-文本對,用於模型訓練。
OCR2.0技術的另一大亮點是其能夠提取格式化文本、標題,甚至多頁圖像,並將其轉換爲結構化的數字格式。這爲科學、音樂和數據分析等領域的自動處理和分析提供了新的可能性。
在各種OCR任務的測試中,GOT展現了卓越的性能,在文檔和場景文本識別方面取得了行業領先成績,甚至在圖表識別方面也超越了許多專業模型和大型語言模型。無論是複雜的化學結構公式,還是音樂符號和數據可視化,OCR2.0都能準確捕捉並轉換爲機器可讀格式。
爲了讓更多用戶能夠體驗並利用這一技術,研究團隊在Hugging Face平臺上發佈了免費的演示和代碼。OCR2.0的到來,無疑爲信息處理領域帶來了一場革命,它不僅提高了效率,還增加了靈活性,讓我們對圖像中的文字信息處理更加得心應手。