协方差与相关性
在数据分析和机器学习中,协方差
和相关性
是两个重要的概念,用于描述变量之间的关系。理解这两个概念对于掌握AI模型的行为尤为重要。
协方差
是衡量两个随机变量如何一起变化的度量。如果两个变量的值一起增加(或者一起减少),那么它们的协方差就是正的;如果一个变量增加而另一个变量减少,则协方差是负的;如果两个变量之间没有明显的线性关系,则协方差接近于零。
对于随机变量 $X$ 和 $Y$,它们的协方差定义为:
$$
\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])]
$$
其中 $E[X]$ 表示随机变量 $X$ 的期望值。
示例
考虑一个案例,我们有两个变量,学习时间
($X$)和考试成绩
($Y$)。假设我们收集了以下数据:
学习时间(小时) | 考试成绩 |
---|---|
1 | 60 |
2 | 70 |
3 | 80 |
4 | 90 |
5 | 95 |
我们可以计算这两个变量的协方差。
1 | import numpy as np |
运行这段代码,我们会得到协方差的值,正值表明学习时间和考试成绩之间有正相关关系。
相关性
相关性
是一个标准化的度量,表示两个变量之间的线性关系强度和方向。相关性介于 $-1$ 和 $1$ 之间,$1$ 表示完全正相关,$-1$ 表示完全负相关,而 $0$ 表示没有线性关系。
相关性可以通过协方差和标准差来计算,公式为:
$$
\text{Corr}(X, Y) = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}
$$
其中 $\sigma_X$ 和 $\sigma_Y$ 分别是变量 $X$ 和 $Y$ 的标准差。
示例
继续使用我们之前的学习时间和考试成绩的例子,可以通过以下代码计算相关性:
1 | correlation = covariance / (np.std(study_hours) * np.std(exam_scores)) |
这样我们就能得出学习时间和考试成绩之间的相关性。正值的相关性说明学习时间越长,考试成绩越高。
总结
协方差
用于测量两个变量的共同变动趋势,值的正负代表变化的方向。相关性
则标准化了协方差,使其取值范围更为直观,便于理解变量之间的关系强度。
理解协方差
和相关性
有助于我们在分析数据时做出更准确的推断,并在构建 AI 模型时合理选择特征和评估变量间的关系。