统计学中,概率分布是描述随机变量可能取值及对应概率的重要工具。下面我们将介绍几种常见的分布类型,并结合案例来说明它们的应用。
正态分布
正态分布是最重要的连续概率分布之一,其概率密度函数呈现钟形曲线。正态分布的概率密度函数为:
$$
f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$
其中,$\mu$ 为均值,$\sigma$ 为标准差。
案例
假设某公司的员工年收入呈正态分布,均值为 $50000$,标准差为 $10000$。我们想知道收入大于 $60000$ 的员工所占比例。
使用Python的scipy.stats
库可以轻松计算出所需的比例。
1 | import scipy.stats as stats |
伯努利分布
伯努利分布是简单的离散概率分布,只考虑两种结果(成功与失败)。其概率质量函数为:
$$
P(X = 1) = p \quad \text{和} \quad P(X = 0) = 1 - p
$$
其中,$p$ 为成功的概率。
案例
考虑一个抛硬币的实验,其正面朝上的概率为 $0.5$。可以用伯努利分布来描述这个实验。
1 | import numpy as np |
泊松分布
泊松分布通常用于描述单位时间内事件的发生次数。其概率质量函数为:
$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
$$
其中,$\lambda$ 是单位时间内事件的平均发生次数。
案例
假设在某个商店,每小时平均顾客到达数为 $λ = 5$。我们想计算在某小时内恰好到达 $3$ 个顾客的概率。
1 | from scipy.stats import poisson |
指数分布
指数分布通常用来描述事件之间的时间间隔,其概率密度函数为:
$$
f(x; \lambda) = \lambda e^{-\lambda x} \quad (x \geq 0)
$$
其中,$\lambda$ 是事件发生的速率参数。
案例
假设某设备的故障时间间隔服从参数为 $λ = 0.1$ 的指数分布,求设备在下一个小时内不发生故障的概率。
1 | # 计算不发生故障的概率 |
结论
理解不同的分布类型有助于在实际应用中选择合适的模型。这些基本的概率分布涵盖了许多真实世界的情况,无论是在商业、经济还是科学研究中都有广泛的应用。通过不断实践和应用,我们能够更好地掌握这些概念。