7 使用Pandas库操作Excel之数据筛选与处理
在上一篇文章中,我们介绍了如何使用Pandas库将数据写入Excel文件。这一章将深入探讨如何使用Pandas库对Excel中的数据进行筛选与处理。通过一些实际案例,我们将学习常用的筛选与处理方法,使你能够更加高效地处理Excel数据。
1. 数据读取
在开始进行数据筛选与处理之前,我们首先需要从Excel文件中读取数据。以下是一个简单的示例,展示了如何使用Pandas读取Excel文件:
1 | import pandas as pd |
在这个代码示例中,pd.read_excel()
函数被用来读取名为data.xlsx
的Excel文件,读取的数据存储在DataFrame
对象df
中。
2. 数据筛选
一旦数据被读取到DataFrame中,我们即可对其进行各种筛选操作。以下是一些常见的筛选方法:
2.1 根据条件筛选
假设我们有一个包含员工信息的Excel文件,其中包含姓名
, 年龄
, 部门
, 薪资
等字段。我们想要筛选出薪资超过5000的员工,可以使用如下代码:
1 | # 筛选薪资超过5000的员工 |
在此示例中,df['薪资'] > 5000
返回一个布尔索引,df[...]
则根据这个索引筛选出符合条件的行。
2.2 多条件筛选
如果想要进一步筛选出薪资超过5000且部门为’销售部’的员工,可以使用&
运算符组合多个条件:
1 | # 筛选薪资超过5000且部门为'销售部'的员工 |
请注意,在多条件筛选时,每个条件需要用括号括起来,以确保正确的运算顺序。
3. 数据处理
在筛选出所需数据后,通常还需要对数据进行处理。以下是几个常见的数据处理操作:
3.1 计算新列
可以很容易地在DataFrame中添加新列。例如,计算每个员工的年薪(假设薪资是月薪):
1 | # 添加年薪列 |
3.2 删除列
如果需要删除不再需要的列,可以使用drop()
方法。例如,删除年龄
列:
1 | # 删除年龄列 |
4. 数据分组与聚合
在数据分析中,经常需要对数据进行分组并进行聚合操作。使用groupby()
方法可以轻松实现在某一列上进行分组,并结合聚合函数如mean()
、sum()
等。
示例:计算不同部门的平均薪资:
1 | # 按部门分组,计算平均薪资 |
5. 结果输出
完成数据筛选与处理后,如果希望将结果写入新的Excel文件,可以使用to_excel()
方法:
1 | # 将筛选后的结果写入新文件 |
这将把筛选后的结果保存为filtered_data.xlsx
,并且不包括行索引。
结语
在这一章中,我们探讨了如何使用Pandas库对Excel数据进行筛选与处理,从基本的读取、筛选到数据处理、分组及结果输出。通过掌握这些技能,你能够在数据分析中更加游刃有余。
接下来,我们将在下一篇中介绍openpyxl
库的基本用法,这将帮助你进一步掌握Excel的自动化处理技巧。希望你能继续跟随我们的系列教程,一步步深入理解Excel的自动化操作!
7 使用Pandas库操作Excel之数据筛选与处理