近日,一款名爲gptpdf的開源項目名在github贊火了1.1k星星,它使用了類似 GPT-4o 的 VLLM 模型來解析 PDF 文件並將其轉換爲 Markdown 格式。

image.png

gptpdf產品入口:https://top.aibase.com/tool/gptpdf

據瞭解,該項目的代碼只有293行,但幾乎可以完美地解析排版、數學公式、表格、圖片、圖表等各種內容。

image.png

 gptpdf 實現步驟是:

1)使用PyMuPDF庫,解析出所有非文本區域,並做好標記(用於省token)

2)使用多模態模型(如 GPT-4o)進行解析,得到markdown文件

值得一提的是,gptpdf的費用是每頁平均成本爲0.013美元。

劃重點:

- 這個開源項目使用類似 GPT-4o 多模態模型解析 PDF 文件,將其轉換爲 Markdown 格式。

- 項目代碼簡潔高效,只有293行。

- 解析結果幾乎完美地包括了排版、數學公式、表格、圖片、圖表等各種內容。