欢迎来到尧图网

客户服务关于我们

您的位置：首页 > 健康 > 美食 > 基于MinerU的PDF解析API

基于MinerU的PDF解析API

2025/2/23 14:08:54 来源：https://blog.csdn.net/yanqianglifei/article/details/141979684 浏览: 次关键词：基于MinerU的PDF解析API

基于MinerU的PDF解析API

- MinerU的GPU镜像构建
- 基于FastAPI的PDF解析接口

支持一键启动，已经打包到镜像中，自带模型权重，支持GPU推理加速，GPU速度相比CPU每页解析要快几十倍不等

主要功能

删除页眉、页脚、脚注、页码等元素，保持语义连贯
对多栏输出符合人类阅读顺序的文本
保留原文档的结构，包括标题、段落、列表等
提取图像、图片标题、表格、表格标题
自动识别文档中的公式并将公式转换成latex
自动识别文档中的表格并将表格转换成latex
乱码PDF自动检测并启用OCR
支持CPU和GPU环境
支持windows/linux/mac平台

具体原理

请见PDF-Extract-Kit:https://github.com/opendatalab/PDF-Extract-Kit/blob/main/README-zh_CN.md
PDF文档中包含大量知识信息，然而提取高质量的PDF内容并非易事。为此，我们将PDF内容提取工作进行拆解：

布局检测：使用LayoutLMv3模型进行区域检测，如图像，表格,标题,文本等；
公式检测：使用YOLOv8进行公式检测，包含行内公式和行间公式；
公式识别：使用UniMERNet进行公式识别；
表格识别：使用StructEqTable进行表格识别；
光学字符识别：使用PaddleOCR进行文本识别；

镜像地址：

阿里云地址：docker pull registry.cn-beijing.aliyuncs.com/quincyqiang/mineru:0.2-models

dockerhub地址：docker pull quincyqiang/mineru:0.2-models

启动命令：

docker run -itd --name=mineru_server --gpus=all -p 8888:8000 quincyqiang/mineru:0.2-models

具体截图请见博客：https://blog.csdn.net/yanqianglifei/article/details/141979684

启动日志：

输入参数：

访问地址：

http://localhost:8888/docshttp://127.0.01:8888/docs

解析效果：

返回内容字段包括:dict_keys([‘layout’, ‘info’, ‘content’])
其中content是一个字典列表：

{'type': 'text', 'text': '现在我们知道：价值实体就是劳动；劳动量的尺度就是劳动持续时间。', 'page_idx': 5
}

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

相关资讯

热文排行

最新新闻

推荐新闻

热搜词