8 描述性统计之离散程度的度量

在上一篇中，我们探讨了描述性统计中的中心趋势度量，如均值、中位数和众数等。这些度量提供了关于数据集中趋势的重要信息，但仅靠它们并不能全面了解数据的分布特征。为了深入了解数据集，我们需要引入离散程度的度量，帮助我们理解数据的变异性和分散性。

离散程度的度量

离散程度度量用于描述数据值相对于其中心趋势的分布情况。常用的离散程度度量包括：

全距（Range）
四分位差（Interquartile Range, IQR）
方差（Variance）
标准差（Standard Deviation）
变异系数（Coefficient of Variation, CV）

1. 全距

全距是数据集中最大值和最小值之间的差距，用于表示数据值的范围。公式为：

\text{全距} = \text{最大值} - \text{最小值}

案例：假设我们有一组学生的考试成绩：[75, 82, 90, 68, 88]。

计算全距：

最大值 = 90
最小值 = 68

全距 = $90 - 68 = 22$ 。

这意味着该组数据的分布范围是22分。

2. 四分位差（IQR）

四分位差是数据中上四分位数（Q3）与下四分位数（Q1）之间的差距，体现了中间50%数据的变异程度。公式为：

\text{四分位差} = Q3 - Q1

案例：使用上面的成绩数据，可以先计算四分位数：

Q1 = 75
Q3 = 90

四分位差 = $90 - 75 = 15$ 。

这表明中间50%的成绩分布范围是15分。

3. 方差

方差是数据集中每个值与均值之间差异的平方的平均值。它的计算公式为：

\text{方差} = \frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2

其中， $n$ 是数据点的个数， $x_i$ 是每个数据点， $\bar{x}$ 是数据的均值。

案例：对上述成绩数据进行方差计算：

均值 $\bar{x} = \frac{75 + 82 + 90 + 68 + 88}{5} = 80.6$ 。

计算每个数据点与均值的差的平方：

$(75 - 80.6)^2 = 30.76$
$(82 - 80.6)^2 = 1.96$
$(90 - 80.6)^2 = 87.36$
$(68 - 80.6)^2 = 156.96$
$(88 - 80.6)^2 = 54.76$

方差 = $\frac{30.76 + 1.96 + 87.36 + 156.96 + 54.76}{5} = 66.36$ 。

4. 标准差

标准差是方差的平方根，表示数据的离散程度。计算公式为：

\text{标准差} = \sqrt{\text{方差}}

案例：从上面的方差计算得到的结果：

标准差 = $\sqrt{66.36} \approx 8.14$ 。

这意味着成绩的散布度大约是8.14分。

5. 变异系数（CV）

变异系数是标准差与均值的比率，通常表示为百分比。公式为：

\text{变异系数} = \frac{\text{标准差}}{\text{均值}} \times 100\%

案例：使用上面的结果：

均值 $\bar{x} = 80.6$ ，标准差 $\approx 8.14$ 。

变异系数 = $\frac{8.14}{80.6} \times 100\% \approx 10.1\%$ 。

这表示成绩的相对变异程度是10.1%。

Python 示例代码

以下是一个简单的Python代码示例，用于计算上述离散程度的度量：

import numpy as np

scores = np.array([75, 82, 90, 68, 88])

# 计算全距
range_ = np.max(scores) - np.min(scores)

# 计算四分位差
Q1 = np.percentile(scores, 25)
Q3 = np.percentile(scores, 75)
IQR = Q3 - Q1

# 计算方差与标准差
variance = np.var(scores)
std_dev = np.std(scores)

# 计算变异系数
mean = np.mean(scores)
CV = (std_dev / mean) * 100

print(f"全距: {range_}")
print(f"四分位差: {IQR}")
print(f"方差: {variance}")
print(f"标准差: {std_dev}")
print(f"变异系数: {CV:.2f}%")

小结

在本篇中，我们探讨了描述性统计中离散程度的度量，这些度量帮助我们理解数据的变异性。在实际应用中，结合中心趋势与离散程度的度量，可以更全面地分析数据特征。接下来的文章中，我们将进一步讨论如何通过可视化手段来直观呈现数据的各种统计信息。