欢迎来到尧图网

客户服务 关于我们

您的位置:首页 > 科技 > 名人名企 > 使用 Python 批量提取 PDF 书签:一款实用工具的实现

使用 Python 批量提取 PDF 书签:一款实用工具的实现

2025/3/10 18:11:29 来源:https://blog.csdn.net/m0_64432106/article/details/146127949  浏览:    关键词:使用 Python 批量提取 PDF 书签:一款实用工具的实现

在日常学习或工作中,我们经常会遇到需要整理大量 PDF 文件的情况。PDF 文件中的书签(也称为大纲或目录)是快速导航的重要工具,但有时我们需要将这些书签提取出来单独保存以便查看或编辑。本文将介绍一个基于 Python 的工具,它可以批量处理指定目录下的 PDF 文件,提取其中的书签并保存为文本文件。无论你是技术爱好者还是需要处理文档的专业人士,这个工具都能帮到你!

背景与需求

PDF 文件的书签通常嵌套在文档的元数据中,手动复制粘贴既费时又容易出错。如果需要处理多个 PDF 文件,这种重复劳动更是让人头疼。好在 Python 提供了强大的库,比如 PyPDF2,可以帮助我们轻松访问 PDF 的内部结构。通过编写一个自动化脚本,我们可以一次性处理多个文件,提取书签并按层级保存。

这个工具的目标是:

  1. 遍历指定目录下的所有 PDF 文件。
  2. 提取每个 PDF 的书签(包括嵌套层级)。
  3. 将书签保存为格式化的文本文件。
  4. 提供友好的交互式界面,支持批量处理。

功能概览

脚本包含以下几个核心功能:

  • 递归提取书签:支持多层嵌套的书签结构。
  • 批量处理:自动扫描目录中的 PDF 文件并逐一处理。
  • 错误处理:对无效文件或缺少书签的情况进行提示。
  • 交互式界面:用户可以输入目录路径并选择是否继续处理。

接下来,我们将深入探讨代码的实现细节。

技术实现

依赖库

脚本依赖以下两个库:

  • os:用于文件和目录操作。
  • PyPDF2:用于读取 PDF 文件并提取书签。

安装 PyPDF2 的命令如下:

pip install PyPDF2

核心函数解析

  1. extract_bookmarks(outline, level=0, bookmarks_list=None)

    • 功能:递归提取 PDF 的书签(outline),支持嵌套结构。
    • 逻辑
      • 如果传入的 outline 为空,直接返回。
      • 遍历每个书签项,检查其类型:
        • 如果是字典(dict),提取标题并记录层级(通过缩进表示)。
        • 如果是列表(list),递归调用自身处理子节点。
        • 对未识别的类型打印调试信息。
    • 返回值:包含所有书签的列表,每项前面带有缩进以反映层级。
  2. save_bookmarks_to_file(bookmarks, output_file)

    • 功能:将提取的书签保存到指定文本文件中。
    • 细节:使用 UTF-8 编码写入,确保支持多语言字符。
  3. process_pdfs_in_directory(input_dir, output_dir)

    • 功能:处理指定目录中的所有 PDF 文件。
    • 步骤
      • 检查并创建输出目录。
      • 扫描 .pdf 文件并逐一处理。
      • 使用 PdfReader 读取 PDF,提取 outline
      • 调用 extract_bookmarks 获取书签列表。
      • 将结果保存为 {文件名}_bookmarks.txt
  4. main()

    • 功能:提供交互式入口。
    • 流程
      • 提示用户输入 PDF 文件目录和输出目录。
      • 调用 process_pdfs_in_directory 处理文件。
      • 支持循环操作,直到用户选择退出。

代码亮点

  • 递归设计extract_bookmarks 使用递归优雅地处理嵌套书签。
  • 健壮性:通过异常捕获和条件检查,避免程序因文件损坏或缺少书签而崩溃。
  • 用户友好:交互式界面让非技术用户也能轻松使用。

使用场景

假设你有一个文件夹,里面存放了多本电子书的 PDF 文件,每本都有详细的书签。你可以使用这个工具:

  1. 运行脚本,输入文件夹路径。
  2. 脚本自动扫描并生成每个 PDF 的书签文本文件。
  3. 你可以将这些书签导入笔记软件,或用于快速检索内容。

例如:

  • 输入目录:D:/Books
  • 输出结果:D:/Books/book1_bookmarks.txt, D:/Books/book2_bookmarks.txt

输出文件可能如下:

- Chapter 1- Section 1.1- Section 1.2
- Chapter 2

如何运行

  1. 确保安装了 Python 和 PyPDF2
  2. 将脚本保存为 pdf_bookmark_extractor.py
  3. 在终端运行:
    python pdf_bookmark_extractor.py
    
  4. 按照提示输入目录路径即可。

注意事项

  • 脚本依赖 PDF 文件的书签数据。如果 PDF 未嵌入书签,程序会提示并跳过。
  • 对于复杂或损坏的 PDF 文件,可能会出现提取失败的情况,此时会显示错误信息。

完整代码

以下是完整的 Python 脚本:

import os
from PyPDF2 import PdfReaderdef extract_bookmarks(outline, level=0, bookmarks_list=None):"""递归提取所有层级的书签内容"""if bookmarks_list is None:bookmarks_list = []if not outline:return bookmarks_listfor item in outline:if isinstance(item, dict):title = item.get('/Title', 'Unnamed')bookmarks_list.append("  " * level + f"- {title}")if '/Kids' in item or 'kids' in item:kids = item.get('/Kids', item.get('kids', []))extract_bookmarks(kids, level + 1, bookmarks_list)elif isinstance(item, list):extract_bookmarks(item, level + 1, bookmarks_list)else:print(f"未识别的书签项类型: {type(item)} - {item}")return bookmarks_listdef save_bookmarks_to_file(bookmarks, output_file):"""将书签保存到文件中"""with open(output_file, 'w', encoding='utf-8') as f:for line in bookmarks:f.write(line + "\n")print(f"书签已保存到: {output_file}")def process_pdfs_in_directory(input_dir, output_dir):"""处理指定目录下的所有 PDF 文件"""if not os.path.exists(output_dir):os.makedirs(output_dir)print(f"已创建输出目录: {output_dir}")pdf_files = [f for f in os.listdir(input_dir) if f.lower().endswith('.pdf')]if not pdf_files:print("指定目录中没有找到 PDF 文件!")returnprint(f"找到 {len(pdf_files)} 个 PDF 文件,开始处理...")for pdf_file in pdf_files:pdf_path = os.path.join(input_dir, pdf_file)print(f"\n正在处理: {pdf_file}")try:pdf = PdfReader(pdf_path)outline = pdf.outlineif not outline:print(f"{pdf_file} 没有书签,跳过。")continuebookmarks = extract_bookmarks(outline)if not bookmarks:print(f"{pdf_file} 未提取到任何书签,可能结构复杂。")continueprint("提取到的书签:")for idx, bookmark in enumerate(bookmarks, 1):print(f"{idx}. {bookmark}")output_filename = os.path.splitext(pdf_file)[0] + "_bookmarks.txt"output_path = os.path.join(output_dir, output_filename)save_bookmarks_to_file(bookmarks, output_path)except Exception as e:print(f"处理 {pdf_file} 时出错:{e}")def main():"""主程序:交互式选择目录并提取所有 PDF 的书签"""print("欢迎使用 PDF 书签批量提取工具!")while True:input_dir = input("请输入包含 PDF 文件的目录路径(或输入 'q' 退出):").strip()if input_dir.lower() == 'q':print("退出程序。")breakif not os.path.isdir(input_dir):print("目录不存在,请重新输入!")continueoutput_dir = input("请输入保存书签的输出目录路径(默认与输入目录相同):").strip()if not output_dir:output_dir = input_dirprocess_pdfs_in_directory(input_dir, output_dir)continue_choice = input("\n是否继续处理其他目录?(y/n): ").strip().lower()if continue_choice != 'y':print("退出程序。")breakif __name__ == "__main__":main()

总结

这款工具展示了 Python 在文件处理和自动化任务中的强大能力。通过几行代码,我们实现了一个实用的小程序,不仅节省时间,还能轻松扩展功能(比如支持其他格式或添加图形界面)。希望这篇文章能激发你对 Python 的兴趣,也欢迎根据自己的需求改进这个脚本!

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com

热搜词