6 随机变量与分布之累积分布函数与概率密度函数

在上一篇文章中，我们讨论了随机变量的基本概念及其分类，即离散随机变量和连续随机变量。在本篇中，我们将深入了解与这些随机变量相关的重要工具：累积分布函数（CDF）和概率密度函数（PDF）。这些概念为我们进一步探讨概率分布打下了基础，这是我们下篇讨论常见概率分布（如二项分布）的前提。

1. 累积分布函数（Cumulative Distribution Function, CDF）

累积分布函数用于描述一个随机变量取值的概率，表示随机变量 $X$ 小于或等于某个特定值 $x$ 的概率。换句话说，CDF 是随机变量 $X$ 的值不超过 $x$ 的概率。

对于离散随机变量 $X$ ，其CDF定义为：

F_X(x) = P(X \leq x) = \sum_{x_i \leq x} P(X = x_i)

对于连续随机变量 $X$ ，CDF定义为：

F_X(x) = P(X \leq x) = \int_{-\infty}^x f_X(t) dt

其中， $f_X(t)$ 为随机变量 $X$ 的概率密度函数（PDF）。

1.1 示例：离散随机变量的CDF

考虑一个简单的例子，一个掷骰子的实验。我们定义随机变量 $X$ 为掷出的点数。 $X$ 的可能取值为 $\{1, 2, 3, 4, 5, 6\}$ ，对应的概率为 $P(X = x) = \frac{1}{6}$ 。我们可以计算 $F_X(3)$ ：

F_X(3) = P(X \leq 3) = P(X = 1) + P(X = 2) + P(X = 3) = \frac{1}{6} + \frac{1}{6} + \frac{1}{6} = \frac{1}{2}

1.2 示例：连续随机变量的CDF

设 $X$ 是一个连续随机变量，具有均匀分布 $U(0, 1)$ 。其概率密度函数 $f_X(x)$ 为：

f_X(x) = \begin{cases} 1 & 0 \leq x \leq 1 \\ 0 & \text{otherwise} \end{cases}

则CDF为：

F_X(x) = \int_{0}^{x} 1 \, dt = x \quad (0 \leq x \leq 1)

2. 概率密度函数（Probability Density Function, PDF）

概率密度函数是用于描述连续随机变量在各个取值处概率分布的函数。对于离散随机变量，我们使用概率质量函数（PMF），而对于连续随机变量，我们使用PDF。

2.1 PDF的定义

对于随机变量 $X$ ，如果 $X$ 的概率密度函数为 $f_X(x)$ ，则对于任意区间 $[a, b]$ ， $X$ 落在该区间内的概率为：

P(a < X \leq b) = \int_{a}^{b} f_X(x) \, dx

PDF 具有以下性质：

$f_X(x) \geq 0$ 对于所有 $x$ 。
整个定义域上的积分为1：

\int_{-\infty}^{+\infty} f_X(x) \, dx = 1

2.2 示例：均匀分布的PDF

延续前面讨论的均匀分布 $U(0, 1)$ ，其 PDF 为：

f_X(x) = \begin{cases} 1 & 0 \leq x \leq 1 \\ 0 & \text{otherwise} \end{cases}

这表示在区间 $[0, 1]$ 内每个值出现的概率是均等的。

3. CDF与PDF之间的关系

对于连续随机变量，CDF和PDF之间存在密切的关系。实际上，PDF是CDF的导数：

f_X(x) = \frac{d}{dx} F_X(x)

反之，如果已知PDF，可以通过积分求得CDF：

F_X(x) = \int_{-\infty}^x f_X(t) dt

3.1 示例：从PDF到CDF

考虑上面的均匀分布，我们知道其 PDF 为 $f_X(x)$ 。那么，CDF为：

F_X(x) = \begin{cases} 0 & x < 0 \\ x & 0 \leq x \leq 1 \\ 1 & x > 1 \end{cases}

这种 分段函数 表达了均匀分布的特性。

3.2 Python 实例：计算CDF和PDF

下面是一个简单的Python示例，使用scipy库来计算均匀分布的CDF和PDF。

import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import uniform

# 设置参数
a, b = 0, 1  # 均匀分布的区间

# 生成 x 值
x = np.linspace(-0.5, 1.5, 100)

# 计算 PDF 和 CDF
pdf = uniform.pdf(x, loc=a, scale=b)
cdf = uniform.cdf(x, loc=a, scale=b)

# 绘图
plt.figure(figsize=(10, 5))

# 绘制 PDF
plt.subplot(1, 2, 1)
plt.title('Probability Density Function (PDF)')
plt.plot(x, pdf, label='PDF', color='blue')
plt.fill_between(x, pdf, alpha=0.2)
plt.xlim(-0.5, 1.5)
plt.xlabel('x')
plt.ylabel('Density')
plt.axhline(0, color='black', lw=1)
plt.axvline(0, color='black', lw=1)

# 绘制 CDF
plt.subplot(1, 2, 2)
plt.title('Cumulative Distribution Function (CDF)')
plt.plot(x, cdf, label='CDF', color='orange')
plt.axhline(1, color='black', lw=1)
plt.axvline(1, color='black', lw=1)
plt.xlim(-0.5, 1.5)
plt.xlabel('x')
plt.ylabel('Probability')
plt.axhline(0, color='black