近日,H2O.ai 宣佈推出兩款新型視覺語言模型,旨在提升文檔分析和光學字符識別(OCR)任務的效率。這兩款模型分別是 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,它們在性能上與大型科技公司的模型相比,展現出令人矚目的競爭力,可能爲處理文檔繁重工作流的企業提供更爲高效的解決方案。

H2OVL Mississippi-0.8B 模型雖然只有8億參數,卻在 OCRBench 文本識別任務中超越了所有其他模型,包括那些擁有數十億參數的競爭對手。而20億個參數的 H2OVL Mississippi-2B 模型則在多項視覺語言基準測試中表現不俗。

image.png

H2O.ai 的創始人兼首席執行官 Sri Ambati 在接受 採訪時表示:“我們設計的 H2OVL Mississippi 模型旨在成爲高性能且具成本效益的解決方案,爲各行各業提供 AI 驅動的 OCR、視覺理解和文檔 AI。” 

image.png

他強調,這些模型可在各種環境中高效運行,同時能夠根據特定領域的需求進行微調,從而幫助企業在降低成本的同時提升效率。

H2O.ai 將這兩款新模型免費發佈在 Hugging Face 平臺上,允許開發者和企業根據自身需求對模型進行修改和適應。這一舉措不僅擴大了 H2O.ai 的用戶基礎,也爲希望採用文檔 AI 解決方案的企業提供了更多選擇。

同時,Ambati 也提到,小型、專用模型的經濟優勢不容忽視。“我們的生成預訓練變換器模型基於與客戶的深入合作,旨在從企業文檔中提取出有意義的信息。” 他指出,H2O.ai 的模型能在資源佔用更少的情況下,提供高效的文檔處理能力,尤其是在面對質量較差的掃描件、難以辨認的手寫體或大幅修改的文檔時,表現更爲出色。

模型入口:

H2OVL-Mississippi-0.8B:https://huggingface.co/h2oai/h2ovl-mississippi-800m

H2OVL Mississippi-2B:https://huggingface.co/h2oai/h2ovl-mississippi-2b

劃重點:  

🌟 H2O.ai 推出新型視覺語言模型 H2OVL Mississippi-2B 和 H2OVL-Mississippi-0.8B,提供高效文檔分析解決方案。  

💡 H2OVL Mississippi-0.8B 模型在文本識別任務中超越更大型的競爭對手,顯示出小型模型的潛力。  

📈 H2O.ai 致力於開放源代碼和實用 AI 解決方案,幫助企業在數字化轉型中提取有價值的信息。