7 描述性统计之中心趋势的度量
在上一节中,我们讨论了数据的类型以及如何进行数据的收集,了解了样本
和总体
的区别。在进行统计分析之前,我们需要先了解数据的特征,而中心趋势的度量是描述性统计中的一个核心概念。它帮助我们理解数据的集中位置,从而为后续的分析奠定基础。
什么是中心趋势?
中心趋势是用于描述数据集的“中心”或“典型值”的统计度量。通过中心趋势,我们可以了解数据的普遍状态,通常包括以下三种主要度量:
- 均值(Mean)
- 中位数(Median)
- 众数(Mode)
1. 均值(Mean)
均值是数据集中的所有数值的总和除以数值的数量。用公式表示为:
其中,表示数据集中第个数值,是数据的总数。
案例:
假设我们有一组学生的考试成绩:[85, 90, 78, 92, 88]
。
计算均值的过程如下:
- 总和 =
- 数据数量 = 5
- 均值 =
# Python代码示例
scores = [85, 90, 78, 92, 88]
mean = sum(scores) / len(scores)
print("均值:", mean) # 输出: 均值: 86.6
2. 中位数(Median)
中位数是将一组数值进行排序后,处于中间位置的数值。对于奇数个数值,中位数就是中间那个数;对于偶数个数值,中位数是中间两个数的均值。
案例:
考虑第二组数据:[85, 90, 78, 92, 88]
。
- 排序后:
[78, 85, 88, 90, 92]
- 中间数(3rd)= 88
对于偶数的数据集,例如[85, 90, 78, 92]
(排序后[78, 85, 90, 92]
),中位数为:
# Python代码示例
import numpy as np
scores_even = [85, 90, 78, 92]
median_even = np.median(scores_even)
print("偶数数据集的中位数:", median_even) # 输出: 偶数数据集的中位数: 87.5
scores_odd = [85, 90, 78, 92, 88]
median_odd = np.median(scores_odd)
print("奇数数据集的中位数:", median_odd) # 输出: 奇数数据集的中位数: 88.0
3. 众数(Mode)
众数是指在数据集中的出现频率最高的数值。可以有一个众数、多个众数,或没有众数的情况。
案例:
考虑数据集[1, 2, 2, 3, 4, 4, 4, 5]
。
在此数据集中,数字4
出现的次数最多,因此众数是4
。
# Python代码示例
from scipy import stats
data = [1, 2, 2, 3, 4, 4, 4, 5]
mode = stats.mode(data)
print("众数:", mode.mode[0]) # 输出: 众数: 4
小结
在这一节中,我们详细讨论了描述性统计中三个主要的中心趋势度量:均值、中位数和众数。理解这些的计算方法及其适用场景对于我们后续的统计分析至关重要。中心趋势提供了数据的整体概貌,但不同的度量在面对不同的数据特征时,其适用性也各不相同。
在下一节,我们将探讨描述性统计中的离散程度度量,这将帮助我们理解数据的分散性和变异性。