6 随机变量与分布之累积分布函数与概率密度函数
在上一篇文章中,我们讨论了随机变量的基本概念及其分类,即离散随机变量和连续随机变量。在本篇中,我们将深入了解与这些随机变量相关的重要工具:累积分布函数(CDF)和概率密度函数(PDF)。这些概念为我们进一步探讨概率分布打下了基础,这是我们下篇讨论常见概率分布(如二项分布)的前提。
1. 累积分布函数(Cumulative Distribution Function, CDF)
累积分布函数
用于描述一个随机变量取值的概率,表示随机变量 小于或等于某个特定值 的概率。换句话说,CDF 是随机变量 的值不超过 的概率。
对于离散随机变量 ,其CDF定义为:
对于连续随机变量 ,CDF定义为:
其中, 为随机变量 的概率密度函数(PDF)。
1.1 示例:离散随机变量的CDF
考虑一个简单的例子,一个掷骰子的实验。我们定义随机变量 为掷出的点数。 的可能取值为 ,对应的概率为 。我们可以计算 :
1.2 示例:连续随机变量的CDF
设 是一个连续随机变量,具有均匀分布 。其概率密度函数 为:
则CDF为:
2. 概率密度函数(Probability Density Function, PDF)
概率密度函数
是用于描述连续随机变量在各个取值处概率分布的函数。对于离散随机变量,我们使用概率质量函数(PMF),而对于连续随机变量,我们使用PDF。
2.1 PDF的定义
对于随机变量 ,如果 的概率密度函数为 ,则对于任意区间 , 落在该区间内的概率为:
PDF 具有以下性质:
- 对于所有 。
- 整个定义域上的积分为1:
2.2 示例:均匀分布的PDF
延续前面讨论的均匀分布 ,其 PDF 为:
这表示在区间 内每个值出现的概率是均等的。
3. CDF与PDF之间的关系
对于连续随机变量,CDF和PDF之间存在密切的关系。实际上,PDF是CDF的导数:
反之,如果已知PDF,可以通过积分求得CDF:
3.1 示例:从PDF到CDF
考虑上面的均匀分布,我们知道其 PDF 为 。那么,CDF为:
这种 分段函数
表达了均匀分布的特性。
3.2 Python 实例:计算CDF和PDF
下面是一个简单的Python示例,使用scipy
库来计算均匀分布的CDF和PDF。
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import uniform
# 设置参数
a, b = 0, 1 # 均匀分布的区间
# 生成 x 值
x = np.linspace(-0.5, 1.5, 100)
# 计算 PDF 和 CDF
pdf = uniform.pdf(x, loc=a, scale=b)
cdf = uniform.cdf(x, loc=a, scale=b)
# 绘图
plt.figure(figsize=(10, 5))
# 绘制 PDF
plt.subplot(1, 2, 1)
plt.title('Probability Density Function (PDF)')
plt.plot(x, pdf, label='PDF', color='blue')
plt.fill_between(x, pdf, alpha=0.2)
plt.xlim(-0.5, 1.5)
plt.xlabel('x')
plt.ylabel('Density')
plt.axhline(0, color='black', lw=1)
plt.axvline(0, color='black', lw=1)
# 绘制 CDF
plt.subplot(1, 2, 2)
plt.title('Cumulative Distribution Function (CDF)')
plt.plot(x, cdf, label='CDF', color='orange')
plt.axhline(1, color='black', lw=1)
plt.axvline(1, color='black', lw=1)
plt.xlim(-0.5, 1.5)
plt.xlabel('x')
plt.ylabel('Probability')
plt.axhline(0, color='black