gptpdf:将PDF文件解析为Markdown

11次阅读
没有评论

共计 442 个字符,预计需要花费 2 分钟才能阅读完成。

gptpdf:将PDF文件解析为Markdown

一个使用VLLM(如GPT-4o)将PDF文件解析为Markdown的方法。这个方法非常简单,仅包含293行代码,能够几乎完美地解析排版、数学公式、表格、图片、图表等。平均每页成本为$0.013。该方法使用GeneralAgent库与OpenAI API进行交互,并基于gptpdf开发了一个名为pdfgpt-ui的可视化工具。它利用PyMuPDF库来识别PDF中的非文本区域并标记它们,然后使用大型视觉模型(如GPT-4o)来获取Markdown文件。此外,还提供了一个函数parse_pdf,用于将PDF文件解析为Markdown文件并返回Markdown内容和所有图片路径。这个函数接受PDF文件路径、输出目录、OpenAI API密钥、OpenAI基础URL、模型名称以及是否启用详细模式作为参数。用户可以通过pip安装gptpdf库并使用提供的示例代码来体验这一功能。

网址

 此处含有隐藏内容,请提交评论并审核通过刷新后即可查看!

正文完
 0
评论(没有评论)