20 Pandas基础案例介绍
数据加载与查看
在数据分析中,第一步往往是将数据加载到程序中。Pandas
提供了多种方式来加载数据,包括 CSV
、Excel
、SQL
等格式。下面是一个简单的示例,展示如何加载 CSV
文件并查看数据。
1 | import pandas as pd |
案例分析
假设我们有一个名为 data.csv
的文件,内容如下:
1 | name,age,city |
通过上述代码,我们可以快速查看到数据框的前五行,帮助我们了解数据的基本结构。
数据清洗
在真实项目中,数据往往不完整或者格式不一致。因此,数据清洗是必要的。我们可以处理缺失值和重复数据。
处理缺失值
1 | # 添加缺失值 |
案例分析
在处理上述 data
数据框时,我们发现 Alice
的年龄缺失。使用 isnull()
检查后,我们发现确实缺失值存在。接着,我们用平均年龄填充了缺失值,确保数据完整性。
数据筛选
筛选数据是分析过程中的重要一步。当我们只关心特定条件下的数据时,Pandas
提供了简洁的语法。
1 | # 筛选年龄大于 30 岁的行 |
案例分析
假设我们想找出所有年龄大于 30 岁的人。通过使用布尔索引,我们可以迅速提取到相关的数据,结果会是 Charlie
的记录。
数据分组与聚合
Pandas
允许我们根据某一列进行分组,然后对每个组执行聚合操作,这对于获取统计信息非常有帮助。
1 | # 按城市分组并计算平均年龄 |
案例分析
如果数据中有多个城市的用户,使用上面的代码可以快速得到每个城市的平均年龄。当 data
数据框包含多条来自不同城市的记录时,分组后便能清楚看到每个城市的平均年龄。
数据可视化
Pandas
与 Matplotlib
可以结合使用进行简单的数据可视化,例如生成直方图。
1 | import matplotlib.pyplot as plt |
案例分析
在我们的数据框中,可以通过直方图快速观察年龄的分布情况。直方图展示了不同年龄段的人数分布,使数据可视化,便于分析。
数据导出
在分析完成后,我们通常需要将处理后的数据导出。Pandas
支持多种文件格式。
1 | # 将处理后的数据导出为 CSV |
案例分析
分析完成后,可以通过 to_csv
将清洗后的数据保存为新文件 cleaned_data.csv
。这使得后续的数据分析或共享工作变得更加方便。
通过这些基础案例的介绍,您可以了解到如何使用 Pandas
进行数据加载、清洗、筛选、聚合、可视化和导出等基本操作。掌握这些基本操作后,您可以快速入门并应用到实际的数据分析中。
20 Pandas基础案例介绍