5月11日,智能文檔處理領域迎來重大進展——首個針對視覺-語言模型的統一基準測試"IDP Leaderboard"正式推出。該基準通過16個數據集、9229份文檔,全面評估了當前主流模型在OCR、關鍵信息提取、視覺問答、表格提取、分類和長文檔處理六大核心任務上的表現,爲行業發展提供了可量化參考。

1.jpg

測試結果顯示,Gemini2.5Flash在綜合實力上力壓羣雄,但卻在OCR和分類任務中出現意外"滑鐵盧",表現甚至不如上一代的Gemini2.0Flash,分別下降了1.84%和0.05%。業內分析認爲,這一現象可能源於谷歌在模型迭代中過度側重多模態推理能力,而相對忽視了基礎文本識別功能的優化。

與此同時,OpenAI的GPT-4o-mini在圖表和繪圖理解方面表現亮眼,尤其在ChartQA等視覺問答任務中脫穎而出。然而,該模型每請求Token成本高居榜首,成爲實際應用中不可忽視的限制因素。開發者社區討論熱點也集中在如何權衡性能與成本之間的平衡。

2.jpg

值得注意的是,長文檔處理和表格提取仍然是當前視覺-語言模型的"阿喀琉斯之踵"。即使表現最佳的模型,在長文檔任務(LongDocBench)上的得分也僅爲69.08%,表格提取(基於GriTS指標)最高也只達到66.64%。這一結果凸顯了AI在處理複雜佈局和長上下文時的侷限性。

IDP Leaderboard採用了極具挑戰性的多樣化數據集,涵蓋手寫文本、印刷文本、帶變音符號文本、結構化與非結構化表格,以及長達21頁的複雜文檔。評估指標也根據任務特性靈活選擇,如OCR、KIE、VQA和長文檔處理使用編輯距離準確率,分類採用精確匹配準確率,表格提取則採用GriTS指標,確保評估的全面性和公正性。

該基準測試計劃定期更新數據集並引入更多模型(如Claude系列),以保持評估的動態性和權威性。開發者可通過GitHub(https://github.com/nanonets/idp-leaderboard)訪問相關數據集和評估代碼,參與社區討論。

智能文檔處理基準的發佈標誌着多模態AI在文檔處理領域進入了可量化評估的新階段。雖然Gemini2.5Flash展現了強大實力,但測試也揭示了當前技術面臨的挑戰。隨着數據集的不斷擴充和模型優化的深入,智能文檔處理技術有望在企業自動化、檔案數字化和智能搜索等領域釋放更大價值,爲數字化轉型提供更強大的技術支撐。