Jupyter AI

3 概率论基础概念之条件概率与独立性

📅 发表日期: 2024年8月10日

分类: 📊AI 概率必备

👁️阅读: 2

在了解了事件与样本空间的基础上,我们进一步探讨概率论中的重要概念:条件概率与独立性。这些概念在机器学习和数据科学中扮演着至关重要的角色,因此掌握它们是进行深入研究的必要基础。

条件概率

定义

条件概率是给定某一事件发生的情况下另一个事件发生的概率。用数学符号表示,如果我们有事件 AA 和事件 BB,条件概率 P(AB)P(A|B) 表示在事件 BB 已经发生的条件下事件 AA 发生的概率。

公式

条件概率的计算公式为:

P(AB)=P(AB)P(B)P(A|B) = \frac{P(A \cap B)}{P(B)}

其中,P(AB)P(A \cap B) 是事件 AA 和事件 BB 同时发生的概率,而 P(B)P(B) 是事件 BB 发生的概率。

示例

考虑一个简单的例子:从一副52张的扑克牌中抽取一张牌。假设我们希望计算抽到红色牌(事件 AA)的条件概率,前提是我们已知抽到的牌是心形牌(事件 BB)。

  1. 事件 AA:抽到红色牌。
  2. 事件 BB:抽到心形牌。

在一副扑克牌中,红色牌包括心形(13张)和方块(13张),而心形牌本身是红色的,所以有 P(AB)=P(抽到心形牌)=1352P(A \cap B) = P(\text{抽到心形牌}) = \frac{13}{52},且 P(B)=1352P(B) = \frac{13}{52}。因此:

P(AB)=P(AB)P(B)=13/5213/52=1P(A|B) = \frac{P(A \cap B)}{P(B)} = \frac{13/52}{13/52} = 1

这表明:在已知抽到的牌是心形牌的情况下,抽到红色牌的概率为1。

代码示例

我们可以使用 Python 来模拟这个例子:

import numpy as np

# 播种以便复现
np.random.seed(42)

# 创建一副扑克牌
cards = ['♠', '♣', '♦', '♥']
total_cards = 52
red_cards = ['♦', '♥']

# 抽取一张牌
drawn_card = np.random.choice(cards, p=[1/4]*4)
is_red = 1 if drawn_card in red_cards else 0

print(f"抽到的牌: {drawn_card}, 是否为红色: {bool(is_red)}")

独立性

定义

事件的独立性意味着一个事件的发生与另一个事件的发生没有任何影响。具体来说,事件 AA 和事件 BB 是独立的,如果满足以下关系:

P(AB)=P(A)P(B)P(A \cap B) = P(A) \cdot P(B)

示例

假设我们有两个完全独立的事件:

  1. 投一枚硬币,事件 AA 是“得到正面”。
  2. 投一个色子,事件 BB 是“得到4”。

我们知道:

  • 硬币投正面的概率 P(A)=12P(A) = \frac{1}{2}
  • 色子投到4的概率 P(B)=16P(B) = \frac{1}{6}

我们求 P(AB)P(A \cap B),即同时得到正面和4:

P(AB)=P(A)P(B)=1216=112P(A \cap B) = P(A) \cdot P(B) = \frac{1}{2} \cdot \frac{1}{6} = \frac{1}{12}

代码示例

影响独立性理解的一个简单 Python 模拟代码如下:

import numpy as np

# 硬币和色子的抽样函数
def flip_coin():
    return np.random.choice(['正面', '反面'], p=[0.5, 0.5])

def roll_die():
    return np.random.randint(1, 7)  # 从1到6

# 执行多次试验
trials = 10000
independent_events = [(flip_coin(), roll_die()) for _ in range(trials)]

# 统计
count = sum(1 for outcome in independent_events if outcome[0] == '正面' and outcome[1] == 4)
probability = count / trials

print(f"经过{trials}次实验,'正面'和'4'同时发生的概率约为: {probability:.4f}")

总结

在练习了条件概率和独立性的相关概念和计算方法后,您应该能够更深入地理解这些概率论核心概念。它们不仅在理论上极为重要,在数据科学和人工智能的实际应用中也常常出现。接下来,我们将更加深入地探讨随机变量及其分布的定义。