新加坡超級應用程序公司 Grab 近日在其工程博客上分享了其自研語言模型的開發經歷,指出現有的大型語言模型在理解東南亞語言時表現不佳。Grab 的超級應用程序提供打車、外賣、購物和金融服務等功能,覆蓋新加坡、馬來西亞、印尼、菲律賓、越南、泰國、柬埔寨和緬甸等國家,這些地區的文檔通常使用非拉丁字母的腳本。

AI機器人玩遊戲

圖源備註:圖片由AI生成

在執行如客戶身份驗證等合規工作時,Grab 需要準確提取身份證、駕照和註冊證書等信息。儘管嘗試過光學字符識別(OCR)系統,但 Grab 發現這些技術在處理多樣化的文檔模板時效果不理想。

在2025年,Grab 開始探索是否可以利用大型語言模型來解決這一問題。儘管一些強大的商業模型具備能力,但在理解東南亞語言時常出現錯誤和延遲,而開源的視覺大型語言模型雖然更高效,但準確性仍不足。因此,Grab 決定自行構建一個視覺大型語言模型,該模型能將圖像向量化,方便提取文本。

Grab 選擇了阿里巴巴雲的 Qwen2-VL2B 模型作爲基礎,因爲它的體積適中,支持東南亞語言,並能動態處理不同分辨率的圖像。隨後,Grab 從 Common Crawl 中提取了東南亞語言的內容,並建立了內部合成數據管道,以生成各種字體和背景下的文本圖像。團隊採用低秩適配技術對 Qwen2-VL 進行微調,取得了在印尼文檔處理上的良好效果。

儘管在泰語和越南語的識別上仍然存在挑戰,Grab 最終決定進行完整參數微調。通過訓練模型,使其學習東南亞語言的獨特視覺模式,Grab 成功開發了一個輕量級的視覺大型語言模型,其表現超越了多種 OCR 工具和通用模型。Grab 表示,戰略性地使用高質量數據,能夠使小型專業模型實現高效與有效的結合。

未來,Grab 計劃繼續開發更多自有模型,以擴展其文檔處理技術。

劃重點:

📊 Grab 發現現有大型語言模型在東南亞語言識別上效果不佳,決定自研模型解決問題。  

🔍 自研的視覺大型語言模型在處理身份證和駕照等文檔時取得了顯著進展。  

🚀 Grab 將繼續開發更多模型,以滿足日益複雜的文檔處理需求。