21 结果展示
在前一篇中,我们已经完成了数据的清洗与处理部分。接下来,我们将聚焦于如何将处理后的数据进行结果展示,特别在爬虫工作流中,这一步骤至关重要,因为它直接影响到数据的可读性和后续决策的依据。
1. 数据概览
在开始结果展示之前,我们首先快速回顾一下我们处理后的数据结构。假设我们的数据集是从某在线商店的产品页面中爬取的,关键字段包括:
产品名称
价格
评分
评论数量
在数据清洗阶段,我们已经将数据整理成了如下格式:
产品名称 | 价格 | 评分 | 评论数量 |
---|---|---|---|
产品A | 299.9 | 4.5 | 120 |
产品B | 199.9 | 4.0 | 75 |
产品C | 399.0 | 4.8 | 200 |
2. 使用Python进行结果展示
我们将使用matplotlib
和pandas
库来可视化这些数据。首先,确保已经安装了这两个库:
pip install matplotlib pandas
2.1 绘制柱状图显示产品价格
接下来,我们用柱状图展示各个产品的价格。
import pandas as pd
import matplotlib.pyplot as plt
# 假设我们的数据已经在处理阶段存储到了一个DataFrame中
data = {
'产品名称': ['产品A', '产品B', '产品C'],
'价格': [299.9, 199.9, 399.0],
'评分': [4.5, 4.0, 4.8],
'评论数量': [120, 75, 200]
}
df = pd.DataFrame(data)
# 绘制柱状图
plt.figure(figsize=(8, 6))
plt.bar(df['产品名称'], df['价格'], color='skyblue')
plt.title('产品价格展示')
plt.xlabel('产品名称')
plt.ylabel('价格 (元)')
plt.xticks(rotation=45)
plt.grid(axis='y')
# 展示图形
plt.tight_layout()
plt.show()
运行上述代码将生成如下柱状图,直观地展示出各个产品的价格。
2.2 绘制散点图展示评分与评论数量关系
接下来,我们可以使用散点图来展示产品的评分与评论数量之间的关系。
# 绘制散点图
plt.figure(figsize=(8, 6))
plt.scatter(df['评论数量'], df['评分'], color='orange')
plt.title('评分与评论数量关系')
plt.xlabel('评论数量')
plt.ylabel('评分')
plt.grid(True)
# 添加标注
for i in range(len(df)):
plt.annotate(df['产品名称'][i], (df['评论数量'][i], df['评分'][i]),
textcoords="offset points", xytext=(0,10), ha='center')
# 展示图形
plt.tight_layout()
plt.show()
上述代码生成的散点图将清晰地显示出每个产品的评论数量与评分之间的关系。
3. 总结与展望
在本篇中,我们展示了如何生成基本的数据可视化,帮助我们更好地理解爬取的数据。通过视觉化的形式,我们可以迅速捕捉到数据中的模式和趋势,便于进行分析和决策。
接下来的一篇教程中,我们将进一步探讨如何将处理后的数据和结果展示结合应用于实际商业决策中。希望这些基础的可视化方法能够为你的项目提供帮助!
No next page