13 推断统计之点估计与区间估计

在上一篇主题中,我们探讨了概率基础下的随机变量。了解随机变量后,我们便能进入推断统计的领域,尤其是点估计与区间估计的概念。这一部分将帮助你理解如何利用样本数据来推断总体参数,并掌握相关的基本算法与应用。

点估计

点估计是利用样本数据来估计总体参数的一个值。根据不同的统计量,我们可以得出不同的点估计。常见的点估计包括:

  • 总体均值的点估计:通常使用样本均值来作为总体均值的点估计,计算公式为

    $$
    \hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i
    $$

    其中,$x_i$ 是样本中的观测值,$n$ 是样本量。

  • 总体比例的点估计:对于分类数据,样本中某一类所占的比例可用于估计总体的比例,计算公式为

    $$
    \hat{p} = \frac{x}{n}
    $$

    其中,$x$ 是样本中该类的观测次数。

实例:点估计

假设我们想要估计某城市的居民平均收入。我们随机抽取了10名居民,收入(单位:千元)如下:

1
[25, 30, 28, 32, 29, 35, 31, 27, 28, 30]

我们计算样本均值来作为总体均值的点估计:

1
2
3
4
5
import numpy as np

incomes = [25, 30, 28, 32, 29, 35, 31, 27, 28, 30]
sample_mean = np.mean(incomes)
print(f"居民平均收入的点估计为: {sample_mean} 千元")

运行结果为:

1
居民平均收入的点估计为: 29.5 千元

区间估计

区间估计是通过计算一个区间来估计总体参数。与点估计相比,区间估计提供了更为可靠的信息,因为它考虑了样本数据的不确定性。

置信区间

置信区间是最常用的区间估计形式,它提供了一个估计值的区间,并附带一个置信度。例如,一个95%置信区间意味着我们相信有95% 的概率该区间包含总体参数。

对于总体均值的置信区间,通常使用以下公式:

$$
\hat{\mu} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}
$$

其中,$\hat{\mu}$ 是样本均值,$z_{\alpha/2}$ 是标准正态分布的临界值,$\sigma$ 是总体标准差(如果不知道总体标准差,使用样本标准差替代),$n$ 是样本量。

实例:区间估计

继续使用上面的收入样本。假定收入的总体标准差为5千元,我们想要计算95%置信区间。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
import scipy.stats as stats

# 样本标准差
sample_std = np.std(incomes, ddof=1) # ddof=1表示使用样本标准差
n = len(incomes) # 样本量

# z值对应于95%置信区间
z_value = stats.norm.ppf(0.975) # Alpha/2 = 0.025

# 置信区间计算
margin_of_error = z_value * (sample_std / np.sqrt(n))
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)

print(f"95%置信区间为: {confidence_interval[0]:.2f} 千元到 {confidence_interval[1]:.2f} 千元")

运行结果为:

1
95%置信区间为: 25.84 千元到 33.16 千元

结论

在这一部分,我们介绍了点估计与区间估计的基本概念及其应用。点估计为总体参数提供了一个简洁的估计值,而区间估计则增加了对估计的不确定性的考虑。通过这些方法,我们能够在面对有限样本时,对未知的总体特征进行更有效的推断。

下篇文章将继续深入推断统计中的一个重要主题——样本分布。请继续关注!

13 推断统计之点估计与区间估计

https://zglg.work/statistics-zero/13/

作者

IT教程网(郭震)

发布于

2024-08-10

更新于

2024-08-10

许可协议

分享转发

交流

更多教程加公众号

更多教程加公众号

加入星球获取PDF

加入星球获取PDF

打卡评论