5 使用Pandas库操作Excel之读取Excel文件的内容

在前一篇中,我们介绍了Pandas库的基本概念以及它在数据分析中的重要性。今天,我们将深入探讨如何使用Pandas库来读取Excel文件的内容。通过理解数据加载的过程,您将能够轻松提取和处理Excel中的数据。

1. 准备工作

在开始之前,请确保您已安装了pandasopenpyxl库。打开命令行或终端,运行以下命令:

1
pip install pandas openpyxl

Pandas是一个强大的数据分析库,而openpyxl则是一个用于读取和写入Excel文件的库。安装完成后,我们可以开始编写代码了。

2. 读取Excel文件

为了读取Excel文件,我们需要使用pandas库中的read_excel函数。该函数可以从指定的Excel文件中加载数据。

假设我们有一个名为data.xlsx的Excel文件,其内容如下:

姓名 年龄 城市
小明 25 北京
小红 22 上海
小刚 30 广州

我们可以使用以下代码来读取这个Excel文件:

1
2
3
4
5
6
7
8
import pandas as pd

# 读取Excel文件
file_path = 'data.xlsx'
data = pd.read_excel(file_path)

# 显示读取的数据
print(data)

在这段代码中,我们首先导入了pandas库,然后指定了Excel文件的路径。通过调用pd.read_excel()函数,我们成功地读取了Excel文件中的数据,并将其存入data变量中。最后,通过print语句打印出内容,结果会显示出表格形式的数据。

3. 指定工作表

如果Excel文件中有多个工作表(Sheet),我们可以通过sheet_name参数来指定要读取的工作表。例如,如果我们想读取名为Sheet1的工作表,可以这样做:

1
data = pd.read_excel(file_path, sheet_name='Sheet1')

同样,如果使用索引来指定工作表,比如第一个工作表,可以写成:

1
data = pd.read_excel(file_path, sheet_name=0)

4. 读取特定列和行

有时候,我们并不需要Excel文件中的所有数据,只想读取特定的列或行。您可以使用usecols参数来选择列,使用nrows参数来限制读取的行数。

4.1 读取特定列

假设我们只想读取“姓名”和“城市”这两列,可以这样写:

1
data = pd.read_excel(file_path, usecols=['姓名', '城市'])

4.2 读取特定行

如果我们只想读取前两行数据,可以这样做:

1
data = pd.read_excel(file_path, nrows=2)

5. 处理空值

在读取数据时,遇到缺失值是常见的情况。Pandas会将Excel中的空单元格读取为NaN(Not a Number)。您可以使用dropna()方法来删除含有空值的行,或使用fillna()方法来填充空值。

例如,假设我们读取的data中有些单元格是空的,可以使用以下方法填充这些空值:

1
data.fillna('未知', inplace=True)

6. 读取Excel文件的案例

下面通过一个完整的案例,将上述内容汇总起来,展示如何读取Excel文件并处理数据:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
import pandas as pd

# 读取Excel文件
file_path = 'data.xlsx'

# 读取全数据
data = pd.read_excel(file_path)

# 显示原始数据
print("原始数据:")
print(data)

# 选择特定列
data_filtered = pd.read_excel(file_path, usecols=['姓名', '城市'])

# 处理缺失值(假设有缺失值)
data_filtered.fillna('未知', inplace=True)

# 显示处理后的数据
print("\n处理后的数据(只包含姓名和城市):")
print(data_filtered)

# 读取前两行
data_head = pd.read_excel(file_path, nrows=2)
print("\n前两行数据:")
print(data_head)

在这个案例中,我们读取了一个Excel文件,首先展示了原始数据,然后选择了特定的列并进行了空值处理,最后还提取了前两行数据。执行这些代码后,您将能够看到结果,它们清晰地展示了如何使用Pandas库实现Excel文件数据的读取和处理。

7. 总结

在这一章中,我们学习了如何使用Pandas库读取Excel文件的内容以及如何处理相关的数据。通过指定工作表、选择特定列和行、以及处理缺失值,我们能够灵活地从Excel中提取数据。这些技能为后续将要学习的数据分析和Excel文件写入打下了坚实的基础。

在下一篇中,我们将探讨如何将数据写入Excel文件,敬请期待!

5 使用Pandas库操作Excel之读取Excel文件的内容

https://zglg.work/excel-python-auto/5/

作者

IT教程网(郭震)

发布于

2024-08-11

更新于

2024-08-11

许可协议

分享转发

复习上节

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论