7 使用Pandas库操作Excel之数据筛选与处理

在上一篇文章中,我们介绍了如何使用Pandas库将数据写入Excel文件。这一章将深入探讨如何使用Pandas库对Excel中的数据进行筛选与处理。通过一些实际案例,我们将学习常用的筛选与处理方法,使你能够更加高效地处理Excel数据。

1. 数据读取

在开始进行数据筛选与处理之前,我们首先需要从Excel文件中读取数据。以下是一个简单的示例,展示了如何使用Pandas读取Excel文件:

1
2
3
4
5
6
7
import pandas as pd

# 读取Excel文件
df = pd.read_excel('data.xlsx')

# 显示前五行数据
print(df.head())

在这个代码示例中,pd.read_excel()函数被用来读取名为data.xlsx的Excel文件,读取的数据存储在DataFrame对象df中。

2. 数据筛选

一旦数据被读取到DataFrame中,我们即可对其进行各种筛选操作。以下是一些常见的筛选方法:

2.1 根据条件筛选

假设我们有一个包含员工信息的Excel文件,其中包含姓名, 年龄, 部门, 薪资等字段。我们想要筛选出薪资超过5000的员工,可以使用如下代码:

1
2
3
4
# 筛选薪资超过5000的员工
high_salary_df = df[df['薪资'] > 5000]

print(high_salary_df)

在此示例中,df['薪资'] > 5000返回一个布尔索引,df[...]则根据这个索引筛选出符合条件的行。

2.2 多条件筛选

如果想要进一步筛选出薪资超过5000且部门为’销售部’的员工,可以使用&运算符组合多个条件:

1
2
3
4
# 筛选薪资超过5000且部门为'销售部'的员工
filtered_df = df[(df['薪资'] > 5000) & (df['部门'] == '销售部')]

print(filtered_df)

请注意,在多条件筛选时,每个条件需要用括号括起来,以确保正确的运算顺序。

3. 数据处理

在筛选出所需数据后,通常还需要对数据进行处理。以下是几个常见的数据处理操作:

3.1 计算新列

可以很容易地在DataFrame中添加新列。例如,计算每个员工的年薪(假设薪资是月薪):

1
2
3
4
# 添加年薪列
df['年薪'] = df['薪资'] * 12

print(df[['姓名', '薪资', '年薪']])

3.2 删除列

如果需要删除不再需要的列,可以使用drop()方法。例如,删除年龄列:

1
2
3
4
# 删除年龄列
df = df.drop(columns=['年龄'])

print(df.head())

4. 数据分组与聚合

在数据分析中,经常需要对数据进行分组并进行聚合操作。使用groupby()方法可以轻松实现在某一列上进行分组,并结合聚合函数如mean()sum()等。

示例:计算不同部门的平均薪资:

1
2
3
4
# 按部门分组,计算平均薪资
average_salary = df.groupby('部门')['薪资'].mean()

print(average_salary)

5. 结果输出

完成数据筛选与处理后,如果希望将结果写入新的Excel文件,可以使用to_excel()方法:

1
2
# 将筛选后的结果写入新文件
filtered_df.to_excel('filtered_data.xlsx', index=False)

这将把筛选后的结果保存为filtered_data.xlsx,并且不包括行索引。

结语

在这一章中,我们探讨了如何使用Pandas库对Excel数据进行筛选与处理,从基本的读取、筛选到数据处理、分组及结果输出。通过掌握这些技能,你能够在数据分析中更加游刃有余。

接下来,我们将在下一篇中介绍openpyxl库的基本用法,这将帮助你进一步掌握Excel的自动化处理技巧。希望你能继续跟随我们的系列教程,一步步深入理解Excel的自动化操作!

7 使用Pandas库操作Excel之数据筛选与处理

https://zglg.work/excel-python-auto/7/

作者

IT教程网(郭震)

发布于

2024-08-11

更新于

2024-08-11

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论