在前一篇中，我们探讨了如何使用Python合并多个PDF文件。在这一篇中，我们将学习如何将一个PDF文件拆分为多个部分。拆分PDF文件的需求在实际工作中非常常见，比如将一本大的电子书分成独立章节，或是将一份完整的报告根据不同的部分进行分割。

拆分PDF的基本原理

拆分PDF文件的基本原理是利用Python的PDF处理库，比如PyPDF2或pikepdf，读取原始PDF文件，按照特定的规则提取页面，并将提取的页面保存为新的PDF文件。

安装依赖库

在开始之前，请确保安装了PyPDF2库。可以使用以下命令进行安装：

pip install PyPDF2

拆分PDF文件的案例

假设我们有一个名为sample.pdf的文件，我们希望将其每个页面都拆分为单独的PDF文件。以下是实现这一目标的代码示例：

import PyPDF2

# 打开要拆分的PDF文件
input_pdf_path = 'sample.pdf'
pdf_file = open(input_pdf_path, 'rb')

# 创建一个PDF读取对象
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 获取PDF文件的总页数
num_pages = len(pdf_reader.pages)

# 拆分每一页并保存为新的PDF文件
for page_num in range(num_pages):
    pdf_writer = PyPDF2.PdfWriter()
    pdf_writer.add_page(pdf_reader.pages[page_num])
    
    output_pdf_path = f'page_{page_num + 1}.pdf'
    with open(output_pdf_path, 'wb') as output_pdf_file:
        pdf_writer.write(output_pdf_file)

# 关闭原始PDF文件
pdf_file.close()

print("PDF文件拆分完成！")

代码解析

打开PDF文件：使用open(input_pdf_path, 'rb')以二进制模式打开PDF文件。
创建PDF读取对象：使用PyPDF2.PdfReader()读取PDF文件。
获取页数：使用len(pdf_reader.pages)获取PDF的总页数。
循环拆分每一页：
- 创建一个PdfWriter对象。
- 使用add_page()方法将当前页添加到PdfWriter中。
- 将单独的页保存为新的PDF文件，命名为page_x.pdf，其中x是页面编号。
关闭文件：最后关闭原始PDF文件。

自定义拆分规则

在实际应用中，拆分PDF的需求可能更复杂。例如，我们可能只希望拆分指定范围的页面，可以通过修改for循环中的范围来实现：

# 拆分第2到第5页（含）
for page_num in range(1, 5):  # 这里 page_num 是基于0的索引
    pdf_writer = PyPDF2.PdfWriter()
    pdf_writer.add_page(pdf_reader.pages[page_num])
    
    output_pdf_path = f'page_{page_num + 1}.pdf'
    with open(output_pdf_path, 'wb') as output_pdf_file:
        pdf_writer.write(output_pdf_file)

在这个例子中，我们只提取了第2到第5页（包括第2页和第5页）。这可以根据实际需要进行调整。

总结

在本篇教程中，我们学习了如何使用Python的PyPDF2库拆分PDF文件为多个部分。无论是简单的将每个页面拆分为单独的文件，还是根据具体需求进行更复杂的拆分，Python都提供了强大的工具。

接下来，我们将进入下篇内容，探讨如何给PDF文件添加水印和注释。这将进一步增强我们对PDF文件处理的能力。希望你在实际应用中能熟练掌握这些技巧！

Jupyter AI

15 拆分PDF文件为多个部分

拆分PDF的基本原理

安装依赖库

拆分PDF文件的案例

代码解析

自定义拆分规则

总结

📄Python 自动化处理 PDF (滚动鼠标查看)