20 Pandas基础案例介绍

20 Pandas基础案例介绍

数据加载与查看

在数据分析中,第一步往往是将数据加载到程序中。Pandas 提供了多种方式来加载数据,包括 CSVExcelSQL 等格式。下面是一个简单的示例,展示如何加载 CSV 文件并查看数据。

1
2
3
4
5
6
7
import pandas as pd

# 加载 CSV 文件
data = pd.read_csv('data.csv')

# 查看前五行数据
print(data.head())

案例分析

假设我们有一个名为 data.csv 的文件,内容如下:

1
2
3
4
name,age,city
Alice,30,New York
Bob,25,Los Angeles
Charlie,35,Chicago

通过上述代码,我们可以快速查看到数据框的前五行,帮助我们了解数据的基本结构。

数据清洗

在真实项目中,数据往往不完整或者格式不一致。因此,数据清洗是必要的。我们可以处理缺失值和重复数据。

处理缺失值

1
2
3
4
5
6
7
8
# 添加缺失值
data.loc[0, 'age'] = None

# 检查缺失值
print(data.isnull().sum())

# 填充缺失值
data['age'].fillna(data['age'].mean(), inplace=True)

案例分析

在处理上述 data 数据框时,我们发现 Alice 的年龄缺失。使用 isnull() 检查后,我们发现确实缺失值存在。接着,我们用平均年龄填充了缺失值,确保数据完整性。

数据筛选

筛选数据是分析过程中的重要一步。当我们只关心特定条件下的数据时,Pandas 提供了简洁的语法。

1
2
3
# 筛选年龄大于 30 岁的行
filtered_data = data[data['age'] > 30]
print(filtered_data)

案例分析

假设我们想找出所有年龄大于 30 岁的人。通过使用布尔索引,我们可以迅速提取到相关的数据,结果会是 Charlie 的记录。

数据分组与聚合

Pandas 允许我们根据某一列进行分组,然后对每个组执行聚合操作,这对于获取统计信息非常有帮助。

1
2
3
# 按城市分组并计算平均年龄
grouped_data = data.groupby('city')['age'].mean()
print(grouped_data)

案例分析

如果数据中有多个城市的用户,使用上面的代码可以快速得到每个城市的平均年龄。当 data 数据框包含多条来自不同城市的记录时,分组后便能清楚看到每个城市的平均年龄。

数据可视化

PandasMatplotlib 可以结合使用进行简单的数据可视化,例如生成直方图。

1
2
3
4
5
import matplotlib.pyplot as plt

# 绘制年龄的直方图
data['age'].hist(bins=5)
plt.show()

案例分析

在我们的数据框中,可以通过直方图快速观察年龄的分布情况。直方图展示了不同年龄段的人数分布,使数据可视化,便于分析。

数据导出

在分析完成后,我们通常需要将处理后的数据导出。Pandas 支持多种文件格式。

1
2
# 将处理后的数据导出为 CSV
data.to_csv('cleaned_data.csv', index=False)

案例分析

分析完成后,可以通过 to_csv 将清洗后的数据保存为新文件 cleaned_data.csv。这使得后续的数据分析或共享工作变得更加方便。

通过这些基础案例的介绍,您可以了解到如何使用 Pandas 进行数据加载、清洗、筛选、聚合、可视化和导出等基本操作。掌握这些基本操作后,您可以快速入门并应用到实际的数据分析中。

20 Pandas基础案例介绍

https://zglg.work/pandas-zero/20/

作者

AI教程网

发布于

2024-08-08

更新于

2024-08-10

许可协议