13 常见的分布类型

13 常见的分布类型

统计学中,概率分布是描述随机变量可能取值及对应概率的重要工具。下面我们将介绍几种常见的分布类型,并结合案例来说明它们的应用。

正态分布

正态分布是最重要的连续概率分布之一,其概率密度函数呈现钟形曲线。正态分布的概率密度函数为:

$$
f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$

其中,$\mu$ 为均值,$\sigma$ 为标准差。

案例

假设某公司的员工年收入呈正态分布,均值为 $50000$,标准差为 $10000$。我们想知道收入大于 $60000$ 的员工所占比例。

使用Python的scipy.stats库可以轻松计算出所需的比例。

1
2
3
4
5
6
7
8
import scipy.stats as stats

mu = 50000
sigma = 10000

# 计算大于60000的概率
probability = 1 - stats.norm.cdf(60000, mu, sigma)
print(f"收入大于60000的员工比例: {probability:.2f}")

伯努利分布

伯努利分布是简单的离散概率分布,只考虑两种结果(成功与失败)。其概率质量函数为:

$$
P(X = 1) = p \quad \text{和} \quad P(X = 0) = 1 - p
$$

其中,$p$ 为成功的概率。

案例

考虑一个抛硬币的实验,其正面朝上的概率为 $0.5$。可以用伯努利分布来描述这个实验。

1
2
3
4
5
6
7
8
import numpy as np

# 抛硬币10次
trials = 10
p = 0.5
outcomes = np.random.binomial(1, p, trials)

print(f"抛硬币的结果: {outcomes}")

泊松分布

泊松分布通常用于描述单位时间内事件的发生次数。其概率质量函数为:

$$
P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}
$$

其中,$\lambda$ 是单位时间内事件的平均发生次数。

案例

假设在某个商店,每小时平均顾客到达数为 $λ = 5$。我们想计算在某小时内恰好到达 $3$ 个顾客的概率。

1
2
3
4
5
6
7
8
from scipy.stats import poisson

lambda_ = 5
k = 3

# 计算恰好3个顾客到达的概率
probability = poisson.pmf(k, lambda_)
print(f"恰好3个顾客到达的概率: {probability:.2f}")

指数分布

指数分布通常用来描述事件之间的时间间隔,其概率密度函数为:

$$
f(x; \lambda) = \lambda e^{-\lambda x} \quad (x \geq 0)
$$

其中,$\lambda$ 是事件发生的速率参数。

案例

假设某设备的故障时间间隔服从参数为 $λ = 0.1$ 的指数分布,求设备在下一个小时内不发生故障的概率。

1
2
3
4
5
6
# 计算不发生故障的概率
lambda_ = 0.1
time = 1

probability = np.exp(-lambda_ * time)
print(f"在下一个小时内不发生故障的概率: {probability:.2f}")

结论

理解不同的分布类型有助于在实际应用中选择合适的模型。这些基本的概率分布涵盖了许多真实世界的情况,无论是在商业、经济还是科学研究中都有广泛的应用。通过不断实践和应用,我们能够更好地掌握这些概念。

14 正态分布

14 正态分布

正态分布是统计学中最重要的分布之一,它描述了许多自然现象的分布情况。在此,我们将详细了解正态分布的定义、性质以及应用。

正态分布的定义

正态分布是一种连续概率分布,其概率密度函数的形式为:

$$
f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x - \mu)^2}{2\sigma^2}}
$$

其中,$\mu$ 为均值,$\sigma$ 为标准差。正态分布的图形呈现为一条钟形曲线,均值决定曲线的中心位置,标准差则控制曲线的宽度。

正态分布的性质

  1. 对称性:正态分布是关于均值对称的,即 $f(\mu + k) = f(\mu - k)$。
  2. 68-95-99.7法则:在正态分布中:
    • 大约 68% 的数据落在均值的一个标准差范围内 $[\mu - \sigma, \mu + \sigma]$。
    • 大约 95% 的数据落在两个标准差范围内 $[\mu - 2\sigma, \mu + 2\sigma]$。
    • 大约 99.7% 的数据落在三个标准差范围内 $[\mu - 3\sigma, \mu + 3\sigma]$。
  3. 加法性:如果 $X_1$ 和 $X_2$ 是独立的正态分布变量,那么 $X = X_1 + X_2$ 仍然是正态分布,且其均值和方差为 $E[X] = E[X_1] + E[X_2]$ 和 $Var[X] = Var[X_1] + Var[X_2]$。

正态分布的应用

正态分布在很多领域有着广泛的应用,比如:

  • 测量误差:许多自然界的误差分布可以近似为正态分布。
  • 考试成绩:许多学生的考试成绩分布接近正态分布。
  • 质量控制:在生产中,产品的某些特性(如重量、尺寸)的分布通常是正态分布。

示例:学生考试成绩

我们假设某次数学考试的学生成绩呈正态分布,均值为 75 分,标准差为 10 分。在此情况下,我们想计算在该次考试中,得分高于 85 分的学生比例。

可以使用 Python 的 scipy 库来进行计算:

1
2
3
4
5
6
7
8
9
import scipy.stats as stats

# 参数
mu = 75 # 均值
sigma = 10 # 标准差

# 计算高于 85 分的比例
prob = 1 - stats.norm.cdf(85, mu, sigma)
print(f"得分高于 85 分的学生比例为: {prob:.2%}")

在运行上述代码时,stats.norm.cdf 函数用于计算累积分布函数(CDF)。得到结果后,我们可以看到有多少比例的学生在这次考试中得分超过 85 分。

总结

正态分布是统计学中不可或缺的概念。它的特性和应用让我们能够更好地理解和分析许多现实世界中的数据。掌握正态分布的基本概念和相关计算,对学习统计学以及数据分析至关重要。

15 t分布与卡方分布

15 t分布与卡方分布

t分布

简介

t分布是一个用于估计总体均值的概率分布,当样本量较小且总体方差未知时尤其适用。它的形状相似于正态分布,但在尾部更重。

特征

  • 自由度:t分布的形状取决于自由度,通常为样本量减一(n-1)。
  • 尾部较重:与正态分布相比,t分布的尾部更宽,适合表示小样本情况下的极端值。

应用案例

假设你想研究某药物对血压的影响,你招募了10名志愿者并测量他们在服用药物后的收缩压。已知数据如下:

1
样本数据: [130, 135, 128, 140, 145, 132, 138, 130, 137, 136]

计算样本均值和标准差并构建t分布的置信区间。

Python代码示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import numpy as np
import scipy.stats as stats

data = [130, 135, 128, 140, 145, 132, 138, 130, 137, 136]
sample_mean = np.mean(data)
sample_std = np.std(data, ddof=1)
n = len(data)

# 计算95%置信区间
confidence_level = 0.95
degrees_of_freedom = n - 1
critical_value = stats.t.ppf((1 + confidence_level) / 2, degrees_of_freedom)

margin_of_error = critical_value * (sample_std / np.sqrt(n))
confidence_interval = (sample_mean - margin_of_error, sample_mean + margin_of_error)

print("样本均值:", sample_mean)
print("样本标准差:", sample_std)
print("95%置信区间:", confidence_interval)

卡方分布

简介

卡方分布用于评估分类数据的独立性和适合度。它是所有观察频率与期望频率之间差异的平方和的分布。

特征

  • 自由度:通常为类别数减一,对于适合度检验,自由度为n-1
  • 非负性:卡方分布只取非负值,因此适合处理计数数据。

应用案例

假设你进行了一项调查,以确定男性和女性对某种产品的偏好。调查结果如下:

1
2
3
4
| 性别  | 喜欢 | 不喜欢 |
|-------|------|--------|
| 男性 | 30 | 10 |
| 女性 | 20 | 20 |

我们希望用卡方检验来评估性别与偏好之间的独立性。

Python代码示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
import numpy as np
import scipy.stats as stats

# 观察频率
observed = np.array([[30, 10], [20, 20]])

# 进行卡方检验
chi2, p, dof, expected = stats.chi2_contingency(observed)

print("卡方统计量:", chi2)
print("p值:", p)
print("自由度:", dof)
print("期望频率:", expected)

# 结果解释
alpha = 0.05
if p < alpha:
print("拒绝原假设:性别与偏好之间存在关联")
else:
print("未拒绝原假设:性别与偏好之间独立")

总结

t分布卡方分布是统计学中非常重要的工具,分别用于小样本均值估计和分类数据分析。在实际应用中,通过Python等工具可以快速进行计算和检验,从而得到有效的统计结论。