13 推断统计之点估计与区间估计
在上一篇主题中,我们探讨了概率基础下的随机变量。了解随机变量后,我们便能进入推断统计的领域,尤其是点估计与区间估计的概念。这一部分将帮助你理解如何利用样本数据来推断总体参数,并掌握相关的基本算法与应用。
点估计
点估计是利用样本数据来估计总体参数的一个值。根据不同的统计量,我们可以得出不同的点估计。常见的点估计包括:
-
总体均值的点估计:通常使用样本均值来作为总体均值的点估计,计算公式为
其中, 是样本中的观测值, 是样本量。
-
总体比例的点估计:对于分类数据,样本中某一类所占的比例可用于估计总体的比例,计算公式为
其中, 是样本中该类的观测次数。
实例:点估计
假设我们想要估计某城市的居民平均收入。我们随机抽取了10名居民,收入(单位:千元)如下:
[25, 30, 28, 32, 29, 35, 31, 27, 28, 30]
我们计算样本均值来作为总体均值的点估计:
import numpy as np
incomes = [25, 30, 28, 32, 29, 35, 31, 27, 28, 30]
sample_mean = np.mean(incomes)
print(f"居民平均收入的点估计为: {sample_mean} 千元")
运行结果为:
居民平均收入的点估计为: 29.5 千元
区间估计
区间估计是通过计算一个区间来估计总体参数。与点估计相比,区间估计提供了更为可靠的信息,因为它考虑了样本数据的不确定性。
置信区间
置信区间是最常用的区间估计形式,它提供了一个估计值的区间,并附带一个置信度。例如,一个95%置信区间意味着我们相信有95% 的概率该区间包含总体参数。
对于总体均值的置信区间,通常使用以下公式:
其中, 是样本均值, 是标准正态分布的临界值, 是总体标准差(如果不知道总体标准差,使用样本标准差替代), 是样本量。
实例:区间估计
继续使用上面的收入样本。假定收入的总体标准差为5千元,我们想要计算95%置信区间。
import scipy.stats as stats
# 样本标准差
sample_std = np.std(incomes, ddof=1) # ddof=1表示使用样本标准差
n = len(incomes) # 样本量
# z值对应于95%置信区间
z_value = stats.norm.ppf(0.975) # Alpha/2 = 0.025
# 置信区间计算
margin_of_error = z_value * (sample_std / np.sqrt(n))
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)
print(f"95%置信区间为: {confidence_interval[0]:.2f} 千元到 {confidence_interval[1]:.2f} 千元")
运行结果为:
95%置信区间为: 25.84 千元到 33.16 千元
结论
在这一部分,我们介绍了点估计与区间估计的基本概念及其应用。点估计为总体参数提供了一个简洁的估计值,而区间估计则增加了对估计的不确定性的考虑。通过这些方法,我们能够在面对有限样本时,对未知的总体特征进行更有效的推断。
下篇文章将继续深入推断统计中的一个重要主题——样本分布。请继续关注!