5 贝叶斯定理基础之先验分布与后验分布
在上一篇中,我们讨论了贝叶斯定理的推导过程,了解了如何从先验知识更新我们的信念。在本篇文章中,我们将深入探讨“先验分布”和“后验分布”的概念及其重要性。通过实例,我们将展示如何为具体问题选择先验分布,并计算后验分布。
先验分布
先验分布
是在观测数据之前,对某一随机变量的概率分布的主观或客观表示。它反映了我们在收集数据之前的知识或信念。
先验分布的类型
非信息性先验:
- 这种先验分布不偏向于任何特定区间,适合于缺乏先验知识的场景。常用的形式是均匀分布。
信息性先验:
- 这种先验分布结合了先前的知识或研究结果。像正态分布、伽马分布等都是常见的选择,例如对于均值未知但已知方差的正态分布。
示例:选择先验分布
假设我们想要估计某个产品的坏品率。我们可能知道在过去的生产中,该坏品率大约在1%到5%之间。我们可以选择一个在这一区间内的Beta分布
作为我们的先验分布。
设坏品率为θ,我们可以使用以下形式的贝塔分布作为先验分布:
$$
\text{Beta}(\alpha, \beta) \quad \text{其中} ; \alpha=2, \beta=8
$$
这表示我们的信念是,坏品率比较低。
后验分布
后验分布
是在观察到数据之后,随机变量的概率分布。这是对先验分布与观测数据的更新结果。根据贝叶斯定理,后验分布的计算可以通过以下公式实现:
$$
P(\theta | D) = \frac{P(D | \theta) P(\theta)}{P(D)}
$$
- $P(\theta | D)$ 是后验分布。
- $P(D | \theta)$ 是似然函数,表示给定参数θ下观测到数据D的概率。
- $P(\theta)$ 是先验分布。
- $P(D)$ 是边际似然,通常是个常数,表示所有可能参数值的加权平均。
示例:计算后验分布
继续我们的坏品率的估计,假设我们进行了100个产品的质量检验,发现其中有3个是坏品。我们可以用上述公式计算后验分布。
- 似然函数:
这里我们可以用二项分布来描述检测到的坏品数目:
$$
P(D | \theta) = \binom{n}{k} \theta^k (1 - \theta)^{n - k}
$$
其中,$n$是总检验数量,$k$是坏品数量。
- 先验分布:
我们用先前所选的贝塔分布:
$$
P(\theta) = \text{Beta}(2, 8)
$$
- 后验分布的计算:
将这些代入贝叶斯公式中,利用后验分布的性质,我们可以得到:
$$
P(\theta | D) \propto P(D | \theta) \cdot P(\theta)
$$
这会得到一个新的贝塔分布,具体的参数值会发生什么变化呢?
- 通过计算,我们将获得:
$$
\text{后验分布} \quad P(\theta | D) = \text{Beta}(2 + 3, 8 + (100 - 3)) = \text{Beta}(5, 105)
$$
这种形式的后验分布能够充分体现我们在观察数据后的信念更新。
小结
在本篇教程中,我们深入探讨了先验分布
与后验分布
的定义以及它们的重要性。通过选择适当的先验分布,并结合观测数据,我们能够计算出后验分布,从而反映更新后的信念。
在下一篇教程中,我们将讨论贝叶斯更新规则及其实际案例,进一步增强对贝叶斯学习与统计推断的理解。请保持关注!
5 贝叶斯定理基础之先验分布与后验分布