該Github項目是使用GPT模型解析PDF文件,可以完美解析PDF中的排版、數學公式、表格、圖片、圖表等內容,平均每頁成本爲$0.013。 解析PDF文件的步驟如下: 1. 使用PyMuPDF庫將PDF解析爲非文本區域和文本區域。

使用PyMuPDF庫將PDF解析爲非文本區域和文本區域,並使用大型可視化模型(例如GPT-4o)解析並獲取Markdown文件。 2. 使用大型可視化模型(例如GPT-4o)解析並獲取Markdown文件。