在上一篇教程中，我们探讨了如何读取 PDF 文件中的文本内容。此次，我们将深入了解如何提取一个 PDF 文件的元数据。PDF 元数据包含了关于文档的各种信息，如作者、标题、主题、创建日期等。这些信息对于文档的管理和分类非常重要。

PDF 元数据简介

PDF 元数据是以键值对的形式存储在 PDF 文件内部的数据。常见的元数据字段包括：

Title：文档标题
Author：文档作者
Subject：文档主题
Creator：创建程序
Producer：生成程序
CreationDate：创建日期
ModDate：修改日期

使用 PyPDF2 提取 PDF 元数据

我们将使用 PyPDF2 库来读取 PDF 文件的元数据。PyPDF2 是一个用于操作 PDF 文件的 Python 库，它功能强大且易于使用。首先，我们需要安装这个库：

pip install PyPDF2

实例代码

以下是一个简单的示例，展示如何读取 PDF 文件的元数据。

import PyPDF2

# 打开 PDF 文件
file_path = 'example.pdf'  # 替换为你的 PDF 文件路径
with open(file_path, 'rb') as file:
    # 创建 PDF 读取器
    pdf_reader = PyPDF2.PdfReader(file)
    
    # 获取 PDF 文件的元数据
    metadata = pdf_reader.metadata

# 打印元数据
for key, value in metadata.items():
    print(f'{key}: {value}')

在上述代码中：

我们打开一个 PDF 文件并创建一个 PdfReader 对象。
使用 metadata 属性获取元数据。
遍历元数据字典并打印所有键值对。

样例输出

假设我们的 PDF 文件包含以下元数据，输出将如下所示：

/Title: My PDF Document
/Author: John Doe
/Subject: Example Subject
/Creator: PDF Generator
/Producer: PDF Library
/CreationDate: D:20220101
/ModDate: D:20220102

这个输出中显示了 PDF 文件的标题、作者等信息，这是我们在进行文档管理时非常有用的。

注意事项

在读取 PDF 元数据时，请注意以下几点：

并不是所有的 PDF 文件都包含完整的元数据。
有些元数据可能为空或缺失。
确保文件是可读的 PDF 格式文件，文件损坏可能导致无法读取。

总结

通过以上教程，我们学习了如何使用 PyPDF2 库读取 PDF 文件的元数据。这一过程相对简单，并且能够为后续的文档处理和管理工作提供有用的信息。在下篇教程中，我们将讨论如何修改 PDF 文件的内容，包括如何添加文本、图像等，敬请期待！

如果你有任何问题或需要进一步的示例，随时可以提问！

Jupyter AI

8 读取 PDF 文件之读取 PDF 元数据

PDF 元数据简介

使用 PyPDF2 提取 PDF 元数据

实例代码

样例输出

注意事项

总结

📄Python 自动化处理 PDF (滚动鼠标查看)