欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 汽车 > 时评 > 探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

2024/10/25 21:23:20 来源:https://blog.csdn.net/kjzd123/article/details/140556883  浏览:    关键词:探索 PDF 转 Markdown 的项目:MinerU 和 pdfParser

pdfParser 项目是在MinerU 项目 的基础上开发的,增加了表格识别功能

MinerU:综合数据提取工具

MinerU 项目 是一款一站式、开源、高质量的数据提取工具,支持 PDF、网页和电子书的提取。其 Magic-PDF 模块可以将 PDF 转换为 Markdown 格式,保留文档结构和格式,并支持图像和表格提取。该项目是由opendatalab实验室开源的项目,该实验室是为为国产大模型提供高质量的开放数据集。

部署方法
  1. 克隆项目:

    git clone https://github.com/opendatalab/MinerU.git
    
  2. 安装 Magic-PDF:

    pip install magic-pdf[full-cpu]
    
  3. 下载模型权重文件并配置:

    cp magic-pdf.template.json ~/magic-pdf.json
    
  4. 使用 CUDA 或 MPS 加速推理(可选):

    • CUDA:
      pip install --force-reinstall torch==2.3.1 torchvision==0.18.1 --index-url https://download.pytorch.org/whl/cu118
      
      修改 magic-pdf.json
      {"device-mode": "cuda"
      }
      
    • MPS:
      修改 magic-pdf.json
      {"device-mode": "mps"
      }
      
  5. 运行 Magic-PDF:

    magic-pdf pdf-command --pdf "pdf_path" --inside_model true
    
pdfParser:增强的表格识别功能

pdfParser 项目 增强了表格识别功能,能将 PDF 中的表格转换为 Markdown 文本。

部署方法
  1. 克隆项目:

    git clone https://github.com/JUN-ZZ/pdfParser.git
    
  2. 安装依赖:

    在上面的项目基础上安装pip install html2text  -i https://mirror.baidu.com/pypi/simple
    
  3. 修改目录运行:

    python data_processer.py
    

通过利用这些工具,用户可以简化数据提取过程,实现 PDF 内容到 Markdown 格式的无缝转换。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com