在2024年WAIC科學前沿主論壇上,上海人工智能實驗室(上海AI實驗室)大模型數據基座OpenDataLab團隊發佈了一款名爲MinerU的全新智能數據提取工具。這款工具旨在簡化AI數據處理流程,幫助AI研究者從海量文檔中提取高質量數據。
MinerU是一款全能、開源的文檔與網頁數據提取工具,能夠將包含圖片、表格、公式等在內的多模態PDF文檔轉化爲清晰、易於分析的Markdown格式。它還能從包含廣告等干擾信息的網頁中快速解析、抽取正式內容,並支持epub、mobi、docx等多種格式批量轉化爲Markdown。
MinerU由兩個主要部分組成:Magic-PDF和Magic-Doc。Magic-PDF專注於PDF文檔提取,將PDF轉化爲Markdown格式,能夠快速識別PDF版面元素,自動刪除非正文內容,保留原文檔的結構和格式。Magic-Doc則負責網頁與電子書提取,支持常見的文章、論壇、音樂、視頻等類型網頁信息提取,以及電子書格式的轉換。
技術層面上,MinerU的PDF文檔提取過程包括PDF文檔分類預處理、模型解析、管線處理和PDF提取結果質檢等環節。它利用了一系列模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,來實現高質量的文檔數據提取。
MinerU的發佈,不僅爲AI研究者提供了一個強大的數據處理工具,也進一步推動了大模型研發與應用的全鏈條工具體系的升級。
魔搭社區體驗鏈接:
https://modelscope.cn/studios/OpenDataLab/MinerU
代碼開源鏈接:
https://github.com/opendatalab/MinerU/
MinerU開源模型(PDF-Extract-Kit):
https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit