数据加载与查看
在数据分析中,第一步往往是将数据加载到程序中。Pandas
提供了多种方式来加载数据,包括 CSV
、Excel
、SQL
等格式。下面是一个简单的示例,展示如何加载 CSV
文件并查看数据。
1 2 3 4 5 6 7
| import pandas as pd
data = pd.read_csv('data.csv')
print(data.head())
|
案例分析
假设我们有一个名为 data.csv
的文件,内容如下:
1 2 3 4
| name,age,city Alice,30,New York Bob,25,Los Angeles Charlie,35,Chicago
|
通过上述代码,我们可以快速查看到数据框的前五行,帮助我们了解数据的基本结构。
数据清洗
在真实项目中,数据往往不完整或者格式不一致。因此,数据清洗是必要的。我们可以处理缺失值和重复数据。
处理缺失值
1 2 3 4 5 6 7 8
| data.loc[0, 'age'] = None
print(data.isnull().sum())
data['age'].fillna(data['age'].mean(), inplace=True)
|
案例分析
在处理上述 data
数据框时,我们发现 Alice
的年龄缺失。使用 isnull()
检查后,我们发现确实缺失值存在。接着,我们用平均年龄填充了缺失值,确保数据完整性。
数据筛选
筛选数据是分析过程中的重要一步。当我们只关心特定条件下的数据时,Pandas
提供了简洁的语法。
1 2 3
| filtered_data = data[data['age'] > 30] print(filtered_data)
|
案例分析
假设我们想找出所有年龄大于 30 岁的人。通过使用布尔索引,我们可以迅速提取到相关的数据,结果会是 Charlie
的记录。
数据分组与聚合
Pandas
允许我们根据某一列进行分组,然后对每个组执行聚合操作,这对于获取统计信息非常有帮助。
1 2 3
| grouped_data = data.groupby('city')['age'].mean() print(grouped_data)
|
案例分析
如果数据中有多个城市的用户,使用上面的代码可以快速得到每个城市的平均年龄。当 data
数据框包含多条来自不同城市的记录时,分组后便能清楚看到每个城市的平均年龄。
数据可视化
Pandas
与 Matplotlib
可以结合使用进行简单的数据可视化,例如生成直方图。
1 2 3 4 5
| import matplotlib.pyplot as plt
data['age'].hist(bins=5) plt.show()
|
案例分析
在我们的数据框中,可以通过直方图快速观察年龄的分布情况。直方图展示了不同年龄段的人数分布,使数据可视化,便于分析。
数据导出
在分析完成后,我们通常需要将处理后的数据导出。Pandas
支持多种文件格式。
1 2
| data.to_csv('cleaned_data.csv', index=False)
|
案例分析
分析完成后,可以通过 to_csv
将清洗后的数据保存为新文件 cleaned_data.csv
。这使得后续的数据分析或共享工作变得更加方便。
通过这些基础案例的介绍,您可以了解到如何使用 Pandas
进行数据加载、清洗、筛选、聚合、可视化和导出等基本操作。掌握这些基本操作后,您可以快速入门并应用到实际的数据分析中。