推荐一款开源将图像和 PDF 文件高精度地转换为 Markdown 和 JSON 格式的文本软件:Pdf-extract-API 。
该项目提供一种工具,用于将图像和 PDF 文件高精度地转换为 Markdown 和 JSON 格式的文本,包括支持表格数据和数学公式。
该工具基于 FastAPI,使用 Celery 进行异步处理,使用 Redis 缓存 OCR 结果,提供多种OCR策略,如 Marker、Surya-OCR 和 Tesseract,还能移除个人身份信息。
功能非常震撼,推荐花时间测试和掌握。
食用地址:https://github.com/CatchTheTornado/pdf-extract-api