9 描述性统计之数据的可视化

在统计学中,数据的可视化是理解和传达统计信息的重要工具。通过可视化,我们能够更直观地看到数据的整体趋势,以及各个变量之间的关系。本篇文章将重点讨论如何通过可视化手段来展示描述性统计数据,让我们能够更清晰地理解数据的特征。

1. 描述性统计回顾

在我们讨论可视化之前,先回顾一下上篇文章关于描述性统计之离散程度的度量。我们了解了几种离散程度的度量方法,如方差标准差四分位差。这些度量为我们提供了数据分布的基本信息,但如何将这些信息以可视化的方式呈现出来呢?

2. 数据可视化的基本图形

2.1 直方图

直方图是展示数据分布的常用图形,能够清晰地显示数据的频率分布。通过对数据进行分组,可以查看到数据的整体形态,包括是否呈现出正态分布偏态分布等特征。

1
2
3
4
5
6
7
8
9
10
11
12
13
import matplotlib.pyplot as plt
import numpy as np

# 生成一些随机数据
data = np.random.normal(loc=0, scale=1, size=1000)

# 绘制直方图
plt.hist(data, bins=30, alpha=0.7, color='blue', edgecolor='black')
plt.title('直方图示例')
plt.xlabel('数值范围')
plt.ylabel('频次')
plt.grid()
plt.show()

2.2 箱线图

箱线图(Boxplot)是显示数据的集中趋势离散程度的一个有效图形。在箱线图中,中位数四分位数以及潜在的异常值都可以清晰地显示出来。

1
2
3
4
5
6
7
8
9
10
11
# 生成多组随机数据
data1 = np.random.normal(0, 1, 100)
data2 = np.random.normal(1, 1.5, 100)
data3 = np.random.normal(2, 0.5, 100)

# 绘制箱线图
plt.boxplot([data1, data2, data3], labels=['组1', '组2', '组3'])
plt.title('箱线图示例')
plt.ylabel('数值')
plt.grid()
plt.show()

2.3 散点图

如果我们有多维数据,散点图是一种理想的可视化方法。它可以帮助我们查看两个变量之间的关系,判断是否存在相关性。

1
2
3
4
5
6
7
8
9
10
11
# 生成两组相关数据
x = np.random.rand(100)
y = x + np.random.normal(0, 0.1, 100)

# 绘制散点图
plt.scatter(x, y, alpha=0.5, color='orange')
plt.title('散点图示例')
plt.xlabel('变量X')
plt.ylabel('变量Y')
plt.grid()
plt.show()

2.4 条形图

条形图适合于比较不同类别的数据,展示类别之间的差异。

1
2
3
4
5
6
7
8
9
10
# 准备类别数据
categories = ['A', 'B', 'C']
values = [10, 20, 15]

# 绘制条形图
plt.bar(categories, values, color='green', alpha=0.7)
plt.title('条形图示例')
plt.ylabel('值')
plt.grid()
plt.show()

3. 数据可视化的注意事项

在进行数据可视化时,几个要点需要注意:

  • 清晰性:确保图形中的信息尽量简明清楚,避免过多的技术细节干扰信息传达。
  • 一致性:使用统一的颜色和风格,保持风格的一致性,便于观察者理解。
  • 适当选择图形:根据数据的特点合理选择可视化的图形,直方图适合展示分布情况,而散点图适合展示多变量之间的关系。

4. 总结

通过本篇文章,我们在描述性统计的框架下,学习了几种常见的数据可视化方法。这些方法可以帮助我们更直观地看到数据的趋势和特征,为后续的概率基础和其他统计分析打下良好的基础。在下一篇中,我们将进一步探索概率的基本概念,为更深入的统计分析做好准备。

9 描述性统计之数据的可视化

https://zglg.work/statistics-zero/9/

作者

IT教程网(郭震)

发布于

2024-08-10

更新于

2024-08-10

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论