Jupyter AI

14 推断统计之样本分布

📅 发表日期: 2024年8月10日

分类: 📊统计学入门

👁️阅读: --

在上一篇文章中,我们讨论了推断统计中的点估计与区间估计。我们了解到如何根据样本数据对总体参数进行估计,以及如何给出这些估计的置信区间。本篇将深入探讨推断统计中的一个重要概念:样本分布

什么是样本分布?

样本分布是指从一个总体中抽取相同样本量的多个样本所计算的某个统计量(例如样本均值、样本比例等)的概率分布。样本分布反映了样本统计量的变异性和分布特征,是推断统计的基础。

样本分布的意义

在推断统计中,我们通常希望通过样本数据来推断总体的特性。样本分布帮助我们理解当我们从总体中随机抽取样本时,样本统计量(如样本均值)的可能取值情况及其概率。

样本均值的分布

假设我们从一个总体中独立随机抽取了样本,每个样本的大小为n,且总体的均值为μ,方差为σ^2。根据中心极限定理,当样本大小n足够大时,样本均值的分布会趋近于正态分布。具体地说,样本均值的分布为:

XˉN(μ,σ2n)\bar{X} \sim N\left(μ, \frac{σ^2}{n}\right)

这里,Xˉ\bar{X}是样本均值,NN表示正态分布。

案例分析

假设我们正在研究某城市居民的年收入(假设收入分布是任意的),已知总体均值为μ = 50000元,总体方差为σ^2 = 250000000元。我们随机抽取n = 30个居民的年收入,假设我们计算得到了样本均值为X̄ = 52000元。根据样本分布理论,我们可以计算样本均值的标准误差(Standard Error, SE):

SE=σn=500030912.87SE = \frac{σ}{\sqrt{n}} = \frac{5000}{\sqrt{30}} \approx 912.87

因此,样本均值的分布为:

XˉN(50000,912.872)\bar{X} \sim N(50000, 912.87^2)

我们可以使用Python来模拟这种情况,验证我们的样本均值是否符合正态分布。

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 设定随机种子
np.random.seed(42)

# 总体参数
mu = 50000
sigma = np.sqrt(250000000)

# 抽取样本
n = 30
samples = np.random.normal(mu, sigma, size=(1000, n))

# 计算样本均值
sample_means = np.mean(samples, axis=1)

# 绘制样本均值分布图
sns.histplot(sample_means, kde=True)
plt.title("Sample Means Distribution")
plt.xlabel("Mean Income")
plt.ylabel("Frequency")
plt.axvline(x=np.mean(sample_means), color='red', linestyle='--', label='Sample Mean')
plt.legend()
plt.show()

利用上面的代码,我们可以观察到多个样本均值的分布图,从而验证样本均值的正态性。

样本比例的分布

假设我们在调查中记录了某个事件发生的次数,用pp表示事件在总体中发生的比例,样本比例p^\hat{p}为样本中事件发生的次数与样本总数的比值。当样本量n较大时,样本比例的分布也趋近于正态分布:

p^N(p,p(1p)n)\hat{p} \sim N\left(p, \frac{p(1-p)}{n}\right)

案例分析

继续以上职位的例子,假设在随机抽取的30人样本中,有18人的收入高于50000元,因此,样本比例为:

p^=1830=0.6\hat{p} = \frac{18}{30} = 0.6

假设总体中这一事件发生的真实比例p=0.5p = 0.5,我们可以计算样本比例的标准误:

SEp^=p(1p)n=0.50.5300.0913SE_{\hat{p}} = \sqrt{\frac{p(1-p)}{n}} = \sqrt{\frac{0.5 \cdot 0.5}{30}} \approx 0.0913

因此,样本比例的分布为:

p^N(0.5,0.09132)\hat{p} \sim N(0.5, 0.0913^2)

同样,我们可以使用Python模拟多个样本比例,从而验证其分布情况。

import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# 设定随机种子
np.random.seed(42)

# 样本数量和事件发生比例
n = 30
p = 0.5
num_samples = 1000

# 生成样本比例
sample_proportions = np.random.binomial(n, p, num_samples) / n

# 绘制样本比例分布图
sns.histplot(sample_proportions, kde=True)
plt.title("Sample Proportions Distribution")
plt.xlabel("Proportion of Events")
plt.ylabel("Frequency")
plt.axvline(x=np.mean(sample_proportions), color='red', linestyle='--', label='Sample Proportion')
plt.legend()
plt.show()

通过以上案例,我们探讨了样本分布的基本概念,样本均值及样本比例的分布,并通过Python代码模拟了实际的数据分布情况。

总结

在本篇中,我们重点了解了样本分布这一推断统计中的核心概念。我们深入探讨了如何通过样本均值和样本比例的正态分布来进行统计推断。接下来的内容将连接大数法则中心极限定理的内容,这两个定理为我们的推断提供了理论支撑,帮助我们进一步理解样本分布的性质。通过掌握这些核心概念,我们将为今后的统计分析打下坚实的基础。