2024-08-08发表2024-08-10更新数据分析 / Pandas6 分钟读完 (大约918个字)0次访问

20 Pandas基础案例介绍

数据加载与查看

在数据分析中，第一步往往是将数据加载到程序中。Pandas 提供了多种方式来加载数据，包括 CSV、Excel、SQL 等格式。下面是一个简单的示例，展示如何加载 CSV 文件并查看数据。

import pandas as pd

# 加载 CSV 文件
data = pd.read_csv('data.csv')

# 查看前五行数据
print(data.head())

案例分析

假设我们有一个名为 data.csv 的文件，内容如下：

name,age,city
Alice,30,New York
Bob,25,Los Angeles
Charlie,35,Chicago

通过上述代码，我们可以快速查看到数据框的前五行，帮助我们了解数据的基本结构。

数据清洗

在真实项目中，数据往往不完整或者格式不一致。因此，数据清洗是必要的。我们可以处理缺失值和重复数据。

处理缺失值

# 添加缺失值
data.loc[0, 'age'] = None

# 检查缺失值
print(data.isnull().sum())

# 填充缺失值
data['age'].fillna(data['age'].mean(), inplace=True)

案例分析

在处理上述 data 数据框时，我们发现 Alice 的年龄缺失。使用 isnull() 检查后，我们发现确实缺失值存在。接着，我们用平均年龄填充了缺失值，确保数据完整性。

数据筛选

筛选数据是分析过程中的重要一步。当我们只关心特定条件下的数据时，Pandas 提供了简洁的语法。

1
2
3

# 筛选年龄大于 30 岁的行
filtered_data = data[data['age'] > 30]
print(filtered_data)

案例分析

假设我们想找出所有年龄大于 30 岁的人。通过使用布尔索引，我们可以迅速提取到相关的数据，结果会是 Charlie 的记录。

数据分组与聚合

Pandas 允许我们根据某一列进行分组，然后对每个组执行聚合操作，这对于获取统计信息非常有帮助。

1
2
3

# 按城市分组并计算平均年龄
grouped_data = data.groupby('city')['age'].mean()
print(grouped_data)

案例分析

如果数据中有多个城市的用户，使用上面的代码可以快速得到每个城市的平均年龄。当 data 数据框包含多条来自不同城市的记录时，分组后便能清楚看到每个城市的平均年龄。

数据可视化

Pandas 与 Matplotlib 可以结合使用进行简单的数据可视化，例如生成直方图。

import matplotlib.pyplot as plt

# 绘制年龄的直方图
data['age'].hist(bins=5)
plt.show()

案例分析

在我们的数据框中，可以通过直方图快速观察年龄的分布情况。直方图展示了不同年龄段的人数分布，使数据可视化，便于分析。

数据导出

在分析完成后，我们通常需要将处理后的数据导出。Pandas 支持多种文件格式。

1 2	# 将处理后的数据导出为 CSV data.to_csv('cleaned_data.csv', index=False)

案例分析

分析完成后，可以通过 to_csv 将清洗后的数据保存为新文件 cleaned_data.csv。这使得后续的数据分析或共享工作变得更加方便。

通过这些基础案例的介绍，您可以了解到如何使用 Pandas 进行数据加载、清洗、筛选、聚合、可视化和导出等基本操作。掌握这些基本操作后，您可以快速入门并应用到实际的数据分析中。

20 Pandas基础案例介绍

https://zglg.work/pandas-zero/20/

作者

AI教程网

发布于

2024-08-08

更新于

2024-08-10

许可协议

#Pandas

支付宝

送我杯咖啡微信

20 Pandas基础案例介绍

数据加载与查看

案例分析

数据清洗

处理缺失值

案例分析

数据筛选

案例分析

数据分组与聚合

案例分析

数据可视化

案例分析

数据导出

案例分析

作者

发布于

更新于

许可协议

喜欢这篇文章？打赏一下作者吧

链接

分类

最新文章

标签