在上一篇中,我们探讨了方差的性质,了解了如何衡量随机变量自身的离散程度。这篇文章将继续讨论概率论中的重要内容:协方差
与相关性
。它们是研究随机变量之间关系的重要工具,尤其在机器学习和数据分析中具有广泛的应用。
协方差的定义
协方差
是用来描述两个随机变量之间的线性关系的度量。设有随机变量 $X$ 和 $Y$,它们的协方差可以表示为:
$$
\text{Cov}(X, Y) = \mathbb{E}[(X - \mathbb{E}[X])(Y - \mathbb{E}[Y])]
$$
有了这个公式,我们可以更直观地理解协方差的意义。协方差计算的是一个变量偏离其期望值的程度,如何影响另一个变量的偏离程度。
协方差的性质
符号意义:
- 如果 $\text{Cov}(X, Y) > 0$,则 $X$ 和 $Y$ 在整体上是正相关的,即一个变量增大时,另一个变量倾向于增大。
- 如果 $\text{Cov}(X, Y) < 0$,则 $X$ 和 $Y$ 是负相关。
- 如果 $\text{Cov}(X, Y) = 0$,则不存在线性关系。
单位问题:
- 协方差的单位是两个变量单位的积,因此不容易解释。
示例
假设我们有两个随机变量 $X$ 和 $Y$,表示一个学生的学习时间(小时)与考试得分(分数)。我们记录了一些数据,如下表所示:
学习时间 ($X$) | 考试得分 ($Y$) |
---|---|
1 | 50 |
2 | 55 |
3 | 60 |
4 | 70 |
5 | 75 |
我们先计算 $X$ 和 $Y$ 的期望值:
$$
\mathbb{E}[X] = \frac{1 + 2 + 3 + 4 + 5}{5} = 3
$$
$$
\mathbb{E}[Y] = \frac{50 + 55 + 60 + 70 + 75}{5} = 62
$$
然后,根据公式计算协方差:
$$
\text{Cov}(X, Y) = \frac{1}{5} \sum_{i=1}^{5} (X_i - \mathbb{E}[X])(Y_i - \mathbb{E}[Y])
$$
1 | import numpy as np |
通过计算,我们得到协方差 Cov(X, Y)
大于 0,说明学习时间和考试得分之间存在正相关性。
相关性的定义与计算
相关性
是对协方差进行标准化之后的结果,主要用来消除单位的影响。相关性用 相关系数
来表示,通常用皮尔逊相关系数(Pearson correlation coefficient)来衡量,定义为:
$$
r_{XY} = \frac{\text{Cov}(X, Y)}{\sqrt{\text{Var}(X) \cdot \text{Var}(Y)}}
$$
其中 $\text{Var}(X)$ 和 $\text{Var}(Y)$ 分别为 $X$ 和 $Y$ 的方差。
相关性的性质
- 范围:
- 相关系数的取值范围在 $[-1, 1]$ 之间。
- $r_{XY} = 1$ 表示完全正相关,$r_{XY} = -1$ 表示完全负相关,$r_{XY} = 0$ 表示无相关性。
示例
继续使用之前的示例,我们可以计算学习时间和考试得分的相关系数。
1 | # 计算方差 |
通过这段代码,我们可以求得 $X$ 和 $Y$ 的相关系数。假设计算得到的相关系数 r
为 0.95,则可以说学习时间与考试成绩之间具有很高的正相关性。
总结
在这一篇中,我们讨论了协方差与相关性,它们是研究两个随机变量之间关系的重要工具。通过计算协方差和相关系数,我们能够更好地理解数据的内在联系。这为下一篇中关于大数法则
的内容打下了基础,帮助我们在更大的数据规模下,理解数据的分布和变化。
在下一篇中,我们将深入探讨大数法则,了解如何在样本量增大时,样本平均数趋向于总体均值。希望大家在后续学习中,能够运用这些概念分析实际问题!