英偉達(NVIDIA)於2025年6月3日正式發佈 Llama Nemotron Nano VL,一款專爲文檔智能處理優化的緊湊型視覺-語言模型(VLM)。該模型在 OCRBench v2基準測試中榮登榜首,展現了其在處理複雜文檔、圖表和視頻幀方面的卓越能力。憑藉高效的推理性能和靈活的部署方式,Llama Nemotron Nano VL 爲企業提供了從雲端到邊緣設備的高精度文檔處理解決方案。

image.png

Llama Nemotron Nano VL:緊湊高效的文檔處理利器

Llama Nemotron Nano VL 基於 Meta 的 Llama3.1架構,結合輕量級視覺編碼器 CRadioV2-H,參數規模僅爲8B,卻在文檔理解任務中表現出色。該模型支持多模態輸入,覆蓋多頁文檔、掃描表格、財務報告和技術圖表等複雜場景,上下文長度可達16K 令牌,適用於長文檔處理和多跳推理任務。  

其核心優勢在於高效推理性能,通過 AWQ4bit 量化技術,模型可在單塊 NVIDIA RTX GPU 或 Jetson Orin 邊緣設備上運行,顯著降低部署成本。這使得 Llama Nemotron Nano VL 成爲需要在資源受限環境中運行 AI 代理的企業的理想選擇。

OCRBench v2登頂,文檔解析能力領先

Llama Nemotron Nano VL 在 OCRBench v2基準測試中取得最高分,超越同類緊湊型視覺-語言模型。OCRBench v2包含超過10,000個人工驗證的問答對,覆蓋金融、醫療、法律和科學出版等領域的文檔,測試內容包括光學字符識別(OCR)、表格解析和圖表推理。  

image.png

該模型在提取結構化數據(如表格和鍵值對)以及回答基於佈局的問題方面表現出色,尤其在非英語文檔和低質量掃描場景下展現了強大的魯棒性。這種高精度和泛化能力使其在自動化文檔問答、智能 OCR 和信息提取等場景中具有廣泛應用前景。

靈活部署,賦能企業多場景應用

Llama Nemotron Nano VL 支持從數據中心到邊緣設備的靈活部署,兼容 NVIDIA 的 TensorRT-LLM 框架,確保在 GPU 加速系統上的高效運行。企業可通過 NVIDIA NeMo 微服務對其進行定製,適配特定領域需求,如財務分析、醫療記錄處理或法律文檔審覈。  

此外,該模型支持單圖和視頻推理,適用於圖像摘要、文本-圖像分析和交互式問答等任務。其開源特性(遵循 NVIDIA Open Model License 和 Llama3.1Community License)允許商業用途,爲開發者提供了構建定製化 AI 代理的自由。

英偉達在智能代理領域的戰略佈局

Llama Nemotron Nano VL 是英偉達 Nemotron 模型家族的重要組成部分,體現了其在智能代理(Agentic AI)領域的持續投入。通過結合 Llama 架構和英偉達的優化技術,該模型不僅提升了推理效率,還在文檔處理領域樹立了新標杆。  

英偉達還計劃通過 NeMo 框架和 NIM 微服務進一步擴展模型功能,支持更多多模態任務,如視頻搜索和物理感知視頻生成。這表明英偉達正致力於構建一個覆蓋從邊緣到雲端的全面 AI 生態,爲企業數字化轉型提供強大支持。

Llama Nemotron Nano VL 的發佈標誌着緊湊型視覺-語言模型在企業級應用中的新突破。其高效性和高精度爲自動化文檔處理、知識管理和智能協作開闢了新可能。AIbase 將持續跟蹤英偉達在 AI 領域的最新進展,爲讀者提供前沿技術洞察。  

入口:https://huggingface.co/nvidia/Llama-3.1-Nemotron-Nano-VL-8B-V1