10 事件与样本空间

10 事件与样本空间

概率基本概念

概率是统计学的基础,用于描述不确定事件发生的可能性。理解概率的基本概念对于深入学习统计学至关重要。

在概率论中,首先要明确几个重要的概念:

  • 事件:我们关心的结果称为事件。例如,投掷一个六面骰子,得到“6”就是一个事件。
  • 样本空间:一个实验可能结果的集合称为样本空间。以投掷骰子为例,样本空间是 ${1, 2, 3, 4, 5, 6}$。

概率的定义

概率是某个事件发生的可能性,用数学表示为:

$$
P(A) = \frac{\text{事件 } A \text{ 发生的可能情况数}}{\text{样本空间中所有可能情况数}}
$$

其中,$P(A)$ 表示事件 $A$ 发生的概率。

概率的性质

  1. 非负性:任何事件的概率是非负的,即 $P(A) \geq 0$。
  2. 归一性:样本空间的总概率是1,即 $P(S) = 1$,其中 $S$ 是样本空间。
  3. 可加性:如果事件 $A$ 和 $B$ 是互斥的(不可同时发生),则 $P(A \cup B) = P(A) + P(B)$。

案例分析

假设我们投掷一枚公平的硬币,分析事件“正面朝上”的概率。

  • 样本空间:$S = {\text{正面}, \text{反面}}$
  • 事件:$A = {\text{正面}}$
  • 事件 $A$ 的概率

$$
P(A) = \frac{1}{2} = 0.5
$$

这说明在投掷一次硬币时,正面朝上的概率是50%。

代码示例

我们可以使用Python简单模拟投掷硬币的实验,验证理论值。

1
2
3
4
5
6
7
8
9
10
11
12
import random

def toss_coin(num_tosses):
heads_count = 0
for _ in range(num_tosses):
if random.choice(['Heads', 'Tails']) == 'Heads':
heads_count += 1
return heads_count / num_tosses

num_tosses = 10000
probability_heads = toss_coin(num_tosses)
print(f"模拟结果:正面朝上的概率约为 {probability_heads:.2f}")

在这个示例中,我们模拟了10,000次投掷硬币,并计算正面朝上的比例。理论上概率应该接近于$0.5$。

概率的应用

概率广泛应用于各个领域,比如:

  • 金融:风险评估与管理
  • 医疗:治愈率的计算与预测
  • 机器学习:模型的决策依据

理解概率基础,不仅能够帮助我们正确解释实验结果,还能在实际应用中做出更合理的判断。

11 概率的基本性质

11 概率的基本性质

概率规则与定理

概率是统计学的基础,通过掌握一些基本的概率规则和定理,可以帮助我们理解随机事件的行为。以下是一些重要的概率规则和定理,以及它们的应用案例。

概率是一个在 $[0, 1]$ 之间的数,用于衡量某事件发生的可能性。对于任何事件 $A$,我们有:

  • $P(A) \geq 0$ (事件发生的概率为非负数)
  • $P(S) = 1$ (样本空间 $S$ 中至少有一个事件会发生)
  • $P(\emptyset) = 0$ (空事件的概率为零)

加法规则

如果事件 $A$ 和 $B$ 是不相干的(即它们不能同时发生),则它们的联合概率为:
$$
P(A \cup B) = P(A) + P(B)
$$

案例:假设在一场游戏中,你有30%的几率赢得第一轮(事件 $A$),有50%的几率赢得第二轮(事件 $B$)。假设这两轮是互不相干的,则:
$$
P(A \cup B) = P(A) + P(B) = 0.3 + 0.5 = 0.8
$$

Python 示例

1
2
3
4
P_A = 0.3  # 赢得第一轮的概率
P_B = 0.5 # 赢得第二轮的概率
P_A_or_B = P_A + P_B # 因为事件是互不相干的
print("赢得第一轮或第二轮的概率:", P_A_or_B)

乘法规则

如果事件 $A$ 和 $B$ 是独立的(即 $P(A | B) = P(A)$),则它们的联合概率为:
$$
P(A \cap B) = P(A) \times P(B)
$$

案例:想象你扔两个独立的骰子,想知道同时掷出6的概率。若事件 $A$ 表示第一个骰子为6,事件 $B$ 表示第二个骰子为6,则:
$$
P(A) = \frac{1}{6}, \quad P(B) = \frac{1}{6}
$$
因此:
$$
P(A \cap B) = P(A) \times P(B) = \frac{1}{6} \times \frac{1}{6} = \frac{1}{36}
$$

Python 示例

1
2
3
4
P_A = 1/6  # 第一个骰子为6的概率
P_B = 1/6 # 第二个骰子为6的概率
P_A_and_B = P_A * P_B # 独立事件的乘法规则
print("同时掷出6的概率:", P_A_and_B)

全概率公式

如果事件 $B_1, B_2, \ldots, B_n$ 是一个完整的样本空间的划分,且事件 $A$ 的概率可以由这些事件的概率和条件概率来计算,则:
$$
P(A) = P(A | B_1) P(B_1) + P(A | B_2) P(B_2) + \ldots + P(A | B_n) P(B_n)
$$

案例:假设我们调查一个地区居民的收入水平,居民可以分为三类:低收入、中等收入和高收入。若其中的低收入居民占40%,中等收入居民占50%,高收入居民占10%;且在这三类人群中,低收入者中有10%的人曾经得过疾病,中等收入者中有20%的人得过疾病,高收入者中有5%的人得过疾病。则得病的整体概率为:
$$
P(A) = P(A | \text{低收入}) P(\text{低收入}) + P(A | \text{中等收入}) P(\text{中等收入}) + P(A | \text{高收入}) P(\text{高收入})
$$

Python 示例

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
# 各类居民的比例
P_low = 0.4
P_medium = 0.5
P_high = 0.1

# 各类居民中得病的概率
P_disease_low = 0.1
P_disease_medium = 0.2
P_disease_high = 0.05

# 计算整体得病的概率
P_disease = (P_disease_low * P_low +
P_disease_medium * P_medium +
P_disease_high * P_high)
print("整体得病的概率:", P_disease)

通过掌握这些概率规则与定理,你可以更好地理解和分析各种随机事件在现实中的表现。

12 随机变量

12 随机变量

在统计学中,随机变量是一个重要的概念。它用于将随机实验的结果映射到实数上。简单来说,随机变量是一个变量,其值是由随机事件决定的。

随机变量的定义

随机变量分为两类:

  1. 离散随机变量(Discrete Random Variable):其可能取值是有限或可数无限的。常用的例子包括掷骰子的结果、抽奖的号码等。

    例如,掷一个六面的骰子,随机变量 $X$ 表示显示的点数,$X$ 可能的取值为 {1, 2, 3, 4, 5, 6}。

  2. 连续随机变量(Continuous Random Variable):其可能取值在一个区间内,可以有无穷多个值。常见的例子包括身高、体重等。

    例如,随机变量 $Y$ 表示某个班级学生的身高,$Y$ 可以取任意实数值,可能的取值区间为 (150, 200) cm。

概率分布

随机变量的下一个重要概念是其概率分布。概率分布描述了随机变量取各个值的概率。

离散随机变量的概率分布

对于离散随机变量,我们可以使用概率质量函数(PMF)来描述其概率分布。

例子:掷骰子的概率分布

假设我们掷一枚公平的六面骰子,那么随机变量 $X$ 的概率分布可以表示为:

  • $P(X=1) = \frac{1}{6}$
  • $P(X=2) = \frac{1}{6}$
  • $P(X=3) = \frac{1}{6}$
  • $P(X=4) = \frac{1}{6}$
  • $P(X=5) = \frac{1}{6}$
  • $P(X=6) = \frac{1}{6}$

我们可以用Python代码来模拟这个实验:

1
2
3
4
5
6
7
8
9
10
11
12
13
import numpy as np
import matplotlib.pyplot as plt

# 生成骰子的结果
results = np.random.randint(1, 7, 1000)

# 绘制概率分布
plt.hist(results, bins=np.arange(0.5, 7.5, 1), density=True)
plt.xticks(range(1, 7))
plt.xlabel('点数')
plt.ylabel('概率')
plt.title('掷骰子的概率分布')
plt.show()

连续随机变量的概率分布

对于连续随机变量,我们使用概率密度函数(PDF)。PDF 描述了随机变量在每一点的“密度”。

例子:身高的概率分布

假设某班级的学生身高服从正态分布,均值为 170 cm,标准差为 10 cm。可以用概率密度函数来描述其分布:

$$
f(y) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(y - \mu)^2}{2\sigma^2}}
$$

在这里,$\mu = 170$, $\sigma = 10$。

我们可以使用Python绘制这个分布:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

# 设置参数
mu, sigma = 170, 10

# 生成身高数据
x = np.linspace(140, 200, 100)
y = norm.pdf(x, mu, sigma)

# 绘制概率密度函数
plt.plot(x, y)
plt.title('身高的概率密度函数')
plt.xlabel('身高 (cm)')
plt.ylabel('概率密度')
plt.grid()
plt.show()

期望与方差

随机变量的另一个重要属性是其期望方差

期望

期望(或均值)是随机变量的加权平均值,表示随机变量的中心位置。

  • 离散随机变量的期望为:

$$
E(X) = \sum_{i} x_i \cdot P(X = x_i)
$$

  • 连续随机变量的期望为:

$$
E(Y) = \int_{-\infty}^{\infty} y \cdot f(y) dy
$$

方差

方差衡量随机变量取值的离散程度。公式如下:

  • 离散随机变量的方差为:

$$
Var(X) = E[(X - E(X))^2]
$$

  • 连续随机变量的方差为:

$$
Var(Y) = \int_{-\infty}^{\infty} (y - E(Y))^2 \cdot f(y) dy
$$

例子:骰子的期望和方差

对于之前的掷骰子例子,期望可以计算为:

$$
E(X) = \sum_{i=1}^{6} i \cdot \frac{1}{6} = 3.5
$$

方差可以通过公式得到:

$$
Var(X) = E(X^2) - (E(X))^2
$$

$$
E(X^2) = \sum_{i=1}^{6} i^2 \cdot \frac{1}{6} = \frac{91}{6} \approx 15.17
$$

$$
Var(X) = 15.17 - (3.5)^2 \approx 2.92
$$

通过以上内容,我们可以更好地理解随机变量的概念,以及如何在实际问题中应用这些知识。随机变量为我们分析和理解随机现象提供了一个强大的工具。