6 随机变量与分布之累积分布函数与概率密度函数
在上一篇文章中,我们讨论了随机变量的基本概念及其分类,即离散随机变量和连续随机变量。在本篇中,我们将深入了解与这些随机变量相关的重要工具:累积分布函数(CDF)和概率密度函数(PDF)。这些概念为我们进一步探讨概率分布打下了基础,这是我们下篇讨论常见概率分布(如二项分布)的前提。
1. 累积分布函数(Cumulative Distribution Function, CDF)
累积分布函数
用于描述一个随机变量取值的概率,表示随机变量 $X$ 小于或等于某个特定值 $x$ 的概率。换句话说,CDF 是随机变量 $X$ 的值不超过 $x$ 的概率。
对于离散随机变量 $X$,其CDF定义为:
$$
F_X(x) = P(X \leq x) = \sum_{x_i \leq x} P(X = x_i)
$$
对于连续随机变量 $X$,CDF定义为:
$$
F_X(x) = P(X \leq x) = \int_{-\infty}^x f_X(t) dt
$$
其中,$f_X(t)$ 为随机变量 $X$ 的概率密度函数(PDF)。
1.1 示例:离散随机变量的CDF
考虑一个简单的例子,一个掷骰子的实验。我们定义随机变量 $X$ 为掷出的点数。$X$ 的可能取值为 ${1, 2, 3, 4, 5, 6}$,对应的概率为 $P(X = x) = \frac{1}{6}$。我们可以计算 $F_X(3)$:
$$
F_X(3) = P(X \leq 3) = P(X = 1) + P(X = 2) + P(X = 3) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{1}{2}
$$
1.2 示例:连续随机变量的CDF
设 $X$ 是一个连续随机变量,具有均匀分布 $U(0, 1)$。其概率密度函数 $f_X(x)$ 为:
$$
f_X(x) =
\begin{cases}
1 & 0 \leq x \leq 1 \
0 & \text{otherwise}
\end{cases}
$$
则CDF为:
$$
F_X(x) = \int_{0}^{x} 1 , dt = x \quad (0 \leq x \leq 1)
$$
2. 概率密度函数(Probability Density Function, PDF)
概率密度函数
是用于描述连续随机变量在各个取值处概率分布的函数。对于离散随机变量,我们使用概率质量函数(PMF),而对于连续随机变量,我们使用PDF。
2.1 PDF的定义
对于随机变量 $X$,如果 $X$ 的概率密度函数为 $f_X(x)$,则对于任意区间 $[a, b]$,$X$ 落在该区间内的概率为:
$$
P(a < X \leq b) = \int_{a}^{b} f_X(x) , dx
$$
PDF 具有以下性质:
- $f_X(x) \geq 0$ 对于所有 $x$。
- 整个定义域上的积分为1:
$$
\int_{-\infty}^{+\infty} f_X(x) , dx = 1
$$
2.2 示例:均匀分布的PDF
延续前面讨论的均匀分布 $U(0, 1)$,其 PDF 为:
$$
f_X(x) =
\begin{cases}
1 & 0 \leq x \leq 1 \
0 & \text{otherwise}
\end{cases}
$$
这表示在区间 $[0, 1]$ 内每个值出现的概率是均等的。
3. CDF与PDF之间的关系
对于连续随机变量,CDF和PDF之间存在密切的关系。实际上,PDF是CDF的导数:
$$
f_X(x) = \frac{d}{dx} F_X(x)
$$
反之,如果已知PDF,可以通过积分求得CDF:
$$
F_X(x) = \int_{-\infty}^x f_X(t) dt
$$
3.1 示例:从PDF到CDF
考虑上面的均匀分布,我们知道其 PDF 为 $f_X(x)$。那么,CDF为:
$$
F_X(x) =
\begin{cases}
0 & x < 0 \
x & 0 \leq x \leq 1 \
1 & x > 1
\end{cases}
$$
这种 分段函数
表达了均匀分布的特性。
3.2 Python 实例:计算CDF和PDF
下面是一个简单的Python示例,使用scipy
库来计算均匀分布的CDF和PDF。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import uniform
# 设置参数
a, b = 0, 1 # 均匀分布的区间
# 生成 x 值
x = np.linspace(-0.5, 1.5, 100)
# 计算 PDF 和 CDF
pdf = uniform.pdf(x, loc=a, scale=b)
cdf = uniform.cdf(x, loc=a, scale=b)
# 绘图
plt.figure(figsize=(10, 5))
# 绘制 PDF
plt.subplot(1, 2, 1)
plt.title('Probability Density Function (PDF)')
plt.plot(x, pdf, label='PDF', color='blue')
plt.fill_between(x, pdf, alpha=0.2)
plt.xlim(-0.5, 1.5)
plt.xlabel('x')
plt.ylabel('Density')
plt.axhline(0, color='black', lw=1)
plt.axvline(0, color='black', lw=1)
# 绘制 CDF
plt.subplot(1, 2, 2)
plt.title('Cumulative Distribution Function (CDF)')
plt.plot(x, cdf, label='CDF', color='orange')
plt.axhline(1, color='black', lw=1)
plt.axvline(1, color='black', lw=1)
plt.xlim(-0.5, 1.5)
plt.xlabel('x')
plt.ylabel('Probability')
plt.axhline(0, color='black
6 随机变量与分布之累积分布函数与概率密度函数