gptpdf:将PDF文件解析为Markdown

33次阅读

共计 442 个字符，预计需要花费 2 分钟才能阅读完成。

一个使用 VLLM（如 GPT-4o）将 PDF 文件解析为 Markdown 的方法。这个方法非常简单，仅包含 293 行代码，能够几乎完美地解析排版、数学公式、表格、图片、图表等。平均每页成本为 $0.013。该方法使用 GeneralAgent 库与 OpenAI API 进行交互，并基于 gptpdf 开发了一个名为 pdfgpt-ui 的可视化工具。它利用 PyMuPDF 库来识别 PDF 中的非文本区域并标记它们，然后使用大型视觉模型（如 GPT-4o）来获取 Markdown 文件。此外，还提供了一个函数 parse_pdf，用于将 PDF 文件解析为 Markdown 文件并返回 Markdown 内容和所有图片路径。这个函数接受 PDF 文件路径、输出目录、OpenAI API 密钥、OpenAI 基础 URL、模型名称以及是否启用详细模式作为参数。用户可以通过 pip 安装 gptpdf 库并使用提供的示例代码来体验这一功能。

网址

此处含有隐藏内容，请提交评论并审核通过刷新后即可查看！

正文完