正文

gptpdf：一款使用AI解析PDF的開源工具

發布於AI新閒資訊

時間 :Jul 3, 2024

閱讀 :1分鐘

該Github項目是使用GPT模型解析PDF文件，可以完美解析PDF中的排版、數學公式、表格、圖片、圖表等內容，平均每頁成本爲$0.013。解析PDF文件的步驟如下： 1. 使用PyMuPDF庫將PDF解析爲非文本區域和文本區域。

使用PyMuPDF庫將PDF解析爲非文本區域和文本區域，並使用大型可視化模型（例如GPT-4o）解析並獲取Markdown文件。 2. 使用大型可視化模型（例如GPT-4o）解析並獲取Markdown文件。

騰訊發佈 HunyuanOCR 開源模型，參數僅 1B 成就多項 SOTA 表現

騰訊發佈1B參數開源模型HunyuanOCR，基於混元多模態架構，在OCR應用中達到SOTA水平。模型採用端到端設計，一次推理即可獲得最優結果，包含原生分辨率視頻編碼器、自適應視覺適配和輕量化混元語言三大核心組件。

Nov 25, 2025

130.2k

NotebookLM升級支持圖像導入板書秒變可檢索知識庫

谷歌推出NotebookLM圖像識別功能，支持上傳板書、教材或表格圖片，自動完成文字識別與語義分析，用戶可直接用自然語言檢索圖片內容。該功能全平臺免費，即將增加本地處理選項保護隱私。系統採用多模態技術，能區分手寫與印刷體、解析表格結構，並與現有筆記智能關聯。

Nov 17, 2025

226.6k

百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

10月16日，百度飛槳發佈視覺語言模型PaddleOCR-VL，以0.9B參數在權威評測OmniDocBench V1.5中獲92.56分，超越DeepSeek-OCR等主流模型登頂全球OCR榜單。截至10月21日，Huggingface趨勢榜前三均爲OCR模型，百度飛槳位列第一。

Oct 24, 2025

278.2k

企業搜索技術大比拼:視覺檢索增強生成（Vision-RAG）VS 文本檢索增強生成(Text-RAG)

視覺檢索增強生成（Vision-RAG）與文本檢索增強生成（Text-RAG）在企業信息檢索中的對比研究顯示，Text-RAG需先將PDF轉爲文本再嵌入索引，但OCR技術常導致轉換不準確，影響檢索效率。Vision-RAG則直接處理視覺信息，可能更高效。研究揭示了兩種方法在應對海量文檔時的優缺點，爲企業優化搜索策略提供參考。

Sep 25, 2025

127.4k

百度 Qianfan-VL 開源發佈，崑崙芯助力多模態 AI 新突破

百度開源視覺理解模型Qianfan-VL，推出3B、8B和70B三個版本，適應不同應用場景。模型基於自研崑崙芯P800芯片訓練，展現國產芯片AI實力。作爲多模態大模型，Qianfan-VL能同時理解圖像與文本，實現跨模態智能處理。

Sep 25, 2025

135.8k

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

gptpdf：一款使用AI解析PDF的開源工具

相關推薦

騰訊發佈 HunyuanOCR 開源模型，參數僅 1B 成就多項 SOTA 表現

NotebookLM升級支持圖像導入 板書秒變可檢索知識庫

百度 PaddleOCR-VL 模型登頂全球 OCR 榜，連續五日領跑 Huggingface 趨勢榜

企業搜索技術大比拼:視覺檢索增強生成（Vision-RAG）VS 文本檢索增強生成(Text-RAG)

​百度 Qianfan-VL 開源發佈，崑崙芯助力多模態 AI 新突破

NotebookLM升級支持圖像導入板書秒變可檢索知識庫

百度 Qianfan-VL 開源發佈，崑崙芯助力多模態 AI 新突破