15 推断统计之大数法则与中心极限定理
在统计学中,我们经常需要从样本数据中推断总体特征。为了能更好地理解推断统计的实用性,前一篇介绍了样本分布的基本概念,而这一篇将探讨两项重要原理:大数法则
和中心极限定理
。这两个理论为我们提供了在不同样本条件下,如何估计总体参数以及理解样本均值行为的重要依据。
大数法则
概述
大数法则
描述了在一定条件下,随着样本数量的增加,样本均值会趋近于总体均值的现象。简单来说,如果我们取得足够大的样本,那么我们样本的均值会接近真实的总体均值。
数学表述
定义总体均值为 $\mu$,如果我们从一个总体中随机抽取 $n$ 个样本 $X_1, X_2, \ldots, X_n$,样本均值 $\bar{X}$ 定义为:
$$
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
$$
大数法则告诉我们,当 $n$ 趋向于无穷大时,样本均值 $\bar{X}$ 几乎肯定会收敛于总体均值 $\mu$,即:
$$
\bar{X} \xrightarrow{p} \mu \quad (n \to \infty)
$$
这里,$\xrightarrow{p}$ 表示在概率收敛的意思。
案例分析
假设我们希望估计某城市居民的平均收入。在这个城市,居民的真实平均收入为 $5000$ 元。我们随机抽取 $n$ 个样本,并计算样本均值。随着样本数量 $n$ 的增加,我们会发现样本均值逐渐接近 $5000$ 元。
1 | import numpy as np |
上面的代码模拟了不同样本大小下所获得的样本均值,红线表示真实均值,随着样本大小的增加,样本均值逐渐靠近真实均值,这验证了大数法则。
中心极限定理
概述
中心极限定理
是推断统计中的一个极其重要的概念。它表明,不论总体分布的形状如何,只要样本量足够大,样本均值的分布将近似于正态分布。
数学表述
设总体均值为 $\mu$,总体标准差为 $\sigma$,从总体中抽取的样本均值 $\bar{X}$ 的分布在样本量 $n$ 足够大的时候会趋近于正态分布,且其均值和方差为:
$$
\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)
$$
这意味着,随着样本大小 $n$ 的增加,样本均值的分布标准差会变小,这样使得样本均值更加集中于总体均值。
案例分析
继续假设我们在调查居民平均收入,假设居民收入的标准差为 $1500$ 元。我们希望知道样本均值的分布情况。
1 | import seaborn as sns |
上面的代码生成了 $1000$ 个样本均值的分布图。可以看到,样本均值的分布趋近于正态分布,并且仍旧以真实均值 $5000$ 元为中心。
总结
通过大数法则和中心极限定理,我们能够更自信地进行推断统计。如果我们有足够大的样本量,可以保证我们的样本均值良好地反映总体均值的特性。接下来,我们将进入线性回归分析,这是推断统计中的另一个重要主题,它帮助我们理解变量之间的关系。
15 推断统计之大数法则与中心极限定理