在上一篇主题中，我们探讨了概率基础下的随机变量。了解随机变量后，我们便能进入推断统计的领域，尤其是点估计与区间估计的概念。这一部分将帮助你理解如何利用样本数据来推断总体参数，并掌握相关的基本算法与应用。

点估计

点估计是利用样本数据来估计总体参数的一个值。根据不同的统计量，我们可以得出不同的点估计。常见的点估计包括：

总体均值的点估计：通常使用样本均值来作为总体均值的点估计，计算公式为
$\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n} x_i$
其中， $x_i$ 是样本中的观测值， $n$ 是样本量。
总体比例的点估计：对于分类数据，样本中某一类所占的比例可用于估计总体的比例，计算公式为
$\hat{p} = \frac{x}{n}$
其中， $x$ 是样本中该类的观测次数。

实例：点估计

假设我们想要估计某城市的居民平均收入。我们随机抽取了10名居民，收入（单位：千元）如下：

[25, 30, 28, 32, 29, 35, 31, 27, 28, 30]

我们计算样本均值来作为总体均值的点估计：

import numpy as np

incomes = [25, 30, 28, 32, 29, 35, 31, 27, 28, 30]
sample_mean = np.mean(incomes)
print(f"居民平均收入的点估计为: {sample_mean} 千元")

运行结果为：

居民平均收入的点估计为: 29.5 千元

区间估计

区间估计是通过计算一个区间来估计总体参数。与点估计相比，区间估计提供了更为可靠的信息，因为它考虑了样本数据的不确定性。

置信区间

置信区间是最常用的区间估计形式，它提供了一个估计值的区间，并附带一个置信度。例如，一个95%置信区间意味着我们相信有95% 的概率该区间包含总体参数。

对于总体均值的置信区间，通常使用以下公式：

\hat{\mu} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}

其中， $\hat{\mu}$ 是样本均值， $z_{\alpha/2}$ 是标准正态分布的临界值， $\sigma$ 是总体标准差（如果不知道总体标准差，使用样本标准差替代）， $n$ 是样本量。

实例：区间估计

继续使用上面的收入样本。假定收入的总体标准差为5千元，我们想要计算95%置信区间。

import scipy.stats as stats

# 样本标准差
sample_std = np.std(incomes, ddof=1)  # ddof=1表示使用样本标准差
n = len(incomes)  # 样本量

# z值对应于95%置信区间
z_value = stats.norm.ppf(0.975)  # Alpha/2 = 0.025

# 置信区间计算
margin_of_error = z_value * (sample_std / np.sqrt(n))
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)

print(f"95%置信区间为: {confidence_interval[0]:.2f} 千元到 {confidence_interval[1]:.2f} 千元")

运行结果为：

95%置信区间为: 25.84 千元到 33.16 千元

结论

在这一部分，我们介绍了点估计与区间估计的基本概念及其应用。点估计为总体参数提供了一个简洁的估计值，而区间估计则增加了对估计的不确定性的考虑。通过这些方法，我们能够在面对有限样本时，对未知的总体特征进行更有效的推断。

下篇文章将继续深入推断统计中的一个重要主题——样本分布。请继续关注！

Jupyter AI

13 推断统计之点估计与区间估计

点估计

实例：点估计

区间估计

置信区间

实例：区间估计

结论

📊统计学入门 (滚动鼠标查看)