13 推断统计之点估计与区间估计
在上一篇主题中,我们探讨了概率基础下的随机变量。了解随机变量后,我们便能进入推断统计的领域,尤其是点估计与区间估计的概念。这一部分将帮助你理解如何利用样本数据来推断总体参数,并掌握相关的基本算法与应用。
点估计
点估计是利用样本数据来估计总体参数的一个值。根据不同的统计量,我们可以得出不同的点估计。常见的点估计包括:
总体均值的点估计:通常使用样本均值来作为总体均值的点估计,计算公式为
$$
\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i
$$其中,$x_i$ 是样本中的观测值,$n$ 是样本量。
总体比例的点估计:对于分类数据,样本中某一类所占的比例可用于估计总体的比例,计算公式为
$$
\hat{p} = \frac{x}{n}
$$其中,$x$ 是样本中该类的观测次数。
实例:点估计
假设我们想要估计某城市的居民平均收入。我们随机抽取了10名居民,收入(单位:千元)如下:
1 | [25, 30, 28, 32, 29, 35, 31, 27, 28, 30] |
我们计算样本均值来作为总体均值的点估计:
1 | import numpy as np |
运行结果为:
1 | 居民平均收入的点估计为: 29.5 千元 |
区间估计
区间估计是通过计算一个区间来估计总体参数。与点估计相比,区间估计提供了更为可靠的信息,因为它考虑了样本数据的不确定性。
置信区间
置信区间是最常用的区间估计形式,它提供了一个估计值的区间,并附带一个置信度。例如,一个95%置信区间意味着我们相信有95% 的概率该区间包含总体参数。
对于总体均值的置信区间,通常使用以下公式:
$$
\hat{\mu} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}
$$
其中,$\hat{\mu}$ 是样本均值,$z_{\alpha/2}$ 是标准正态分布的临界值,$\sigma$ 是总体标准差(如果不知道总体标准差,使用样本标准差替代),$n$ 是样本量。
实例:区间估计
继续使用上面的收入样本。假定收入的总体标准差为5千元,我们想要计算95%置信区间。
1 | import scipy.stats as stats |
运行结果为:
1 | 95%置信区间为: 25.84 千元到 33.16 千元 |
结论
在这一部分,我们介绍了点估计与区间估计的基本概念及其应用。点估计为总体参数提供了一个简洁的估计值,而区间估计则增加了对估计的不确定性的考虑。通过这些方法,我们能够在面对有限样本时,对未知的总体特征进行更有效的推断。
下篇文章将继续深入推断统计中的一个重要主题——样本分布。请继续关注!
13 推断统计之点估计与区间估计