探索 PDF 转 Markdown 的项目：MinerU 和 pdfParser

2025/4/29 21:28:39 来源：https://blog.csdn.net/kjzd123/article/details/140556883 浏览: 次关键词：探索 PDF 转 Markdown 的项目：MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目的基础上开发的，增加了表格识别功能

MinerU：综合数据提取工具

MinerU 项目是一款一站式、开源、高质量的数据提取工具，支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式，保留文档结构和格式，并支持图像和表格提取。该项目是由opendatalab实验室开源的项目，该实验室是为为国产大模型提供高质量的开放数据集。

部署方法

克隆项目：

git clone https://github.com/opendatalab/MinerU.git

安装 Magic-PDF：
```
pip install magic-pdf[full-cpu]
```

下载模型权重文件并配置：

cp magic-pdf.template.json ~/magic-pdf.json

使用 CUDA 或 MPS 加速推理（可选）：

CUDA：

pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118

修改 magic-pdf.json：

{"device-mode": "cuda"
}

MPS：
修改 magic-pdf.json：
```
{"device-mode": "mps"
}
```

运行 Magic-PDF：

magic-pdf pdf-command --pdf "pdf_path" --inside_model true

pdfParser：增强的表格识别功能

pdfParser 项目增强了表格识别功能，能将 PDF 中的表格转换为 Markdown 文本。

部署方法

克隆项目：

git clone https://github.com/JUN-ZZ/pdfParser.git

安装依赖：

在上面的项目基础上安装pip install html2text  -i https://mirror.baidu.com/pypi/simple

修改目录运行：
```
python data_processer.py
```

通过利用这些工具，用户可以简化数据提取过程，实现 PDF 内容到 Markdown 格式的无缝转换。

探索 PDF 转 Markdown 的项目：MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目的基础上开发的，增加了表格识别功能

MinerU：综合数据提取工具

部署方法

pdfParser：增强的表格识别功能

部署方法

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

探索 PDF 转 Markdown 的项目：MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的，增加了表格识别功能

MinerU：综合数据提取工具

部署方法

pdfParser：增强的表格识别功能

部署方法

相关资讯

热文排行

最新新闻

推荐新闻

热搜词

pdfParser 项目是在MinerU 项目的基础上开发的，增加了表格识别功能