15 Pandas实战案例:使用Pandas进行数据分析
在前一篇文章中,我们概述了整个数据分析项目的步骤和目标。这篇文章将通过一个实际案例,详细介绍如何使用Pandas进行数据分析。我们将从数据的读取、处理、分析到可视化进行全面演示。接下来,我们将使用一个简单的销售数据集,分析销售趋势和产品表现。
数据集概述
我们将使用一个包含以下信息的CSV文件 sales_data.csv
:
Order ID | Product | Quantity Ordered | Price Each | Order Date | City |
---|---|---|---|---|---|
1 | Widget A | 4 | 19.99 | 2019-01-06 11:34:00 | New York |
2 | Widget B | 2 | 29.99 | 2019-01-07 10:12:00 | Los Angeles |
... | ... | ... | ... | ... | ... |
目标
我们的目标是分析以下内容:
- 总销售额
- 各城市的销售额
- 不同产品的销量
读取数据
首先,我们需要使用Pandas读取CSV文件。以下是读取数据的代码示例:
import pandas as pd
# 读取 CSV 数据文件
data = pd.read_csv('sales_data.csv')
# 查看数据的前几行
print(data.head())
数据预处理
在分析之前,我们需要确保数据是干净的。我们要检查缺失值和数据类型,并进行必要的转换。
# 检查数据类型和缺失值
print(data.info())
# 转换 'Order Date' 列为 datetime 类型
data['Order Date'] = pd.to_datetime(data['Order Date'])
# 检查是否还有缺失值
print(data.isnull().sum())
假设数据正常,我们将继续进行分析。
1. 总销售额分析
我们首先计算总销售额。销售额的计算可以通过 Quantity Ordered
和 Price Each
列的乘积得出。
# 计算总销售额
data['Sales'] = data['Quantity Ordered'] * data['Price Each']
total_sales = data['Sales'].sum()
print(f'总销售额: ${total_sales:.2f}')
2. 各城市销售额分析
接下来,我们将计算每个城市的销售额:
# 各城市销售额
city_sales = data.groupby('City')['Sales'].sum().reset_index()
# 输出各城市销售额
print(city_sales)
# 可视化各城市销售额
import matplotlib.pyplot as plt
plt.bar(city_sales['City'], city_sales['Sales'])
plt.xlabel('城市')
plt.ylabel('销售额')
plt.title('各城市销售额')
plt.xticks(rotation=45)
plt.show()
3. 不同产品销量分析
最后,我们要分析不同产品的销量。可以使用以下代码:
# 不同产品销量
product_sales = data.groupby('Product')['Quantity Ordered'].sum().reset_index()
# 输出不同产品销量
print(product_sales)
# 可视化不同产品销量
plt.bar(product_sales['Product'], product_sales['Quantity Ordered'])
plt.xlabel('产品')
plt.ylabel('销量')
plt.title('不同产品销量')
plt.xticks(rotation=45)
plt.show()
总结
通过这个案例,我们展示了如何使用Pandas进行数据分析的基本流程,包括数据的读取、预处理、分析和可视化。在实际工作中,这种分析方法可以帮助企业发现销售趋势、优化产品线以及制定市场策略。
在下一篇文章中,我们将介绍如何使用Pandas进行更复杂的数据分析和处理操作,包括数据的合并与连接,欢迎继续关注!
No next page