8 常见概率分布之正态分布

在概率论和统计学中，正态分布是一种极其重要的概率分布，其重要性部分来源于中央极限定理。本文将带您深入理解正态分布的性质、公式以及它在实际中的应用。

什么是正态分布？

正态分布，又称为高斯分布，是一种连续概率分布，其概率密度函数（PDF）呈钟形曲线。正态分布的公式为：

f(x; \mu, \sigma) = \frac{1}{\sigma \sqrt{2\pi}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}

其中， $\mu$ 是均值（期望值）。
$\sigma$ 是标准差，表示数据的离散程度。

正态分布的性质

对称性：正态分布关于均值 $\mu$ 对称。
68-95-99.7法则：
- 约68%的数据落在均值+/-1个标准差范围内。
- 约95%的数据落在均值+/-2个标准差范围内。
- 约99.7%的数据落在均值+/-3个标准差范围内。
线性组合的正态性：如果 $X_1, X_2, ..., X_n$ 是独立同分布的正态随机变量，则它们的线性组合也是正态分布。

正态分布的案例

假设我们对某个城市的居民身高进行研究，已知身高服从正态分布，均值为 $\mu = 175 \text{ cm}$ ，标准差为 $\sigma = 10 \text{ cm}$ 。我们可以计算出在该城市中身高范围内的一些概率。

计算身高在165到185 cm之间的概率

首先，我们需要计算标准化值（Z值）：

Z_1 = \frac{165 - 175}{10} = -1

Z_2 = \frac{185 - 175}{10} = 1

我们可以使用Z表查找对应的概率，或者使用Python代码进行计算：

import scipy.stats as stats

# 设置均值和标准差
mu = 175
sigma = 10

# 计算概率
prob = stats.norm.cdf(185, mu, sigma) - stats.norm.cdf(165, mu, sigma)
print(f"身高在165到185 cm之间的概率是: {prob:.4f}")

运行结果:

身高在165到185 cm之间的概率是: 0.6827

这意味着，在这个城镇中，约68.27%的人身高在165到185 cm之间，验证了68-95-99.7法则。

正态分布的应用

正态分布在多个领域都有广泛的应用，包括：

自然和社会科学：许多自然现象和社会数据（如身高、体重、智商等）都近似服从正态分布。
质量控制：在制造业中，产品的特性（如长度、重量）常常会被假设为正态分布，以便进行质量控制。
其他统计分析：正态分布是许多统计分析的基础，例如t检验、ANOVA分析等。

小结

本文简要介绍了正态分布的基本概念、性质以及实际应用，并通过一个实际案例进行了演示。正态分布是概率论中的重要组成部分，理解和掌握正态分布对于进行更复杂的统计分析至关重要。

在下篇文章中，我们将继续探讨泊松分布，一种用于描述事件在固定时间间隔内发生次数的离散概率分布。请继续关注！