正文

gptpdf：一款使用AI解析PDF的开源工具

发布于AI新闻资讯

发布时间 :2024年7月3号 8:54

阅读 :1分钟

该Github项目是使用GPT模型解析PDF文件，可以完美解析PDF中的排版、数学公式、表格、图片、图表等内容，平均每页成本为$0.013。解析PDF文件的步骤如下： 1. 使用PyMuPDF库将PDF解析为非文本区域和文本区域。

使用PyMuPDF库将PDF解析为非文本区域和文本区域，并使用大型可视化模型（例如GPT-4o）解析并获取Markdown文件。 2. 使用大型可视化模型（例如GPT-4o）解析并获取Markdown文件。

腾讯发布 HunyuanOCR 开源模型，参数仅 1B 成就多项 SOTA 表现

腾讯发布1B参数开源模型HunyuanOCR，基于混元多模态架构，在OCR应用中达到SOTA水平。模型采用端到端设计，一次推理即可获得最优结果，包含原生分辨率视频编码器、自适应视觉适配和轻量化混元语言三大核心组件。

2025年11月25号 14:57

130.2k

NotebookLM升级支持图像导入板书秒变可检索知识库

谷歌推出NotebookLM图像识别功能，支持上传板书、教材或表格图片，自动完成文字识别与语义分析，用户可直接用自然语言检索图片内容。该功能全平台免费，即将增加本地处理选项保护隐私。系统采用多模态技术，能区分手写与印刷体、解析表格结构，并与现有笔记智能关联。

2025年11月17号 10:16

226.6k

百度 PaddleOCR-VL 模型登顶全球 OCR 榜，连续五日领跑 Huggingface 趋势榜

10月16日，百度飞桨发布视觉语言模型PaddleOCR-VL，以0.9B参数在权威评测OmniDocBench V1.5中获92.56分，超越DeepSeek-OCR等主流模型登顶全球OCR榜单。截至10月21日，Huggingface趋势榜前三均为OCR模型，百度飞桨位列第一。

2025年10月24号 13:58

278.2k

企业搜索技术大比拼:视觉检索增强生成（Vision-RAG）VS 文本检索增强生成(Text-RAG)

视觉检索增强生成（Vision-RAG）与文本检索增强生成（Text-RAG）在企业信息检索中的对比研究显示，Text-RAG需先将PDF转为文本再嵌入索引，但OCR技术常导致转换不准确，影响检索效率。Vision-RAG则直接处理视觉信息，可能更高效。研究揭示了两种方法在应对海量文档时的优缺点，为企业优化搜索策略提供参考。

2025年9月25号 14:43

127.4k

百度 Qianfan-VL 开源发布，昆仑芯助力多模态 AI 新突破

百度开源视觉理解模型Qianfan-VL，推出3B、8B和70B三个版本，适应不同应用场景。模型基于自研昆仑芯P800芯片训练，展现国产芯片AI实力。作为多模态大模型，Qianfan-VL能同时理解图像与文本，实现跨模态智能处理。

2025年9月25号 9:41

135.8k

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

gptpdf：一款使用AI解析PDF的开源工具

相关推荐

腾讯发布 HunyuanOCR 开源模型，参数仅 1B 成就多项 SOTA 表现

NotebookLM升级支持图像导入 板书秒变可检索知识库

百度 PaddleOCR-VL 模型登顶全球 OCR 榜，连续五日领跑 Huggingface 趋势榜

企业搜索技术大比拼:视觉检索增强生成（Vision-RAG）VS 文本检索增强生成(Text-RAG)

​百度 Qianfan-VL 开源发布，昆仑芯助力多模态 AI 新突破

NotebookLM升级支持图像导入板书秒变可检索知识库

百度 Qianfan-VL 开源发布，昆仑芯助力多模态 AI 新突破