首页 常识

协方差公式计算(机器学习中协方差和相关性)

1. 概念引领:度量变量间线性关系

协方差和相关性都是用来衡量两个随机变量之间线性关系的统计量,但两者在含义和应用上存在着一些重要的区别。

  • 协方差:反映了两个随机变量的绝对线性关系,其值可以为正、负或零。单位与变量的单位相同。
  • 相关性:反映了两个随机变量之间标准化后的线性关系,其值在 -1 到 1 之间。没有单位。

2. 公式推导:揭示度量本质

  • 协方差:设 X 和 Y 是两个随机变量,则它们的协方差定义为:
Cov(X, Y) = E[(X - μ_x)(Y - μ_y)]

其中:

  • E 表示期望值
  • μ_x 和 μ_y 分别是 X 和 Y 的均值
  • 相关性:设 ρ(X, Y) 表示 X 和 Y 的相关性,则其定义为:
ρ(X, Y) = Cov(X, Y) / (σ_x σ_y)

其中:

  • σ_x 和 σ_y 分别是 X 和 Y 的标准差

3. 关键区别:理解内涵差异

协方差和相关性虽然同为度量线性关系的指标,但二者存在着以下关键区别:

  • 度量单位: 协方差的单位与变量的单位相同,例如身高和体重之间的协方差单位为公斤平方米,而相关性的单位没有单位,是纯粹的比例关系。
  • 取值范围: 协方差可以为正、负或零,而相关性的取值范围在 -1 到 1 之间。协方差为正,表示两个变量正相关,即它们朝着相同的方向变化。例如,身高和体重通常呈正相关,即身高越高,体重往往也越重。协方差为负,表示两个变量负相关,即它们朝着相反的方向变化。例如,年龄和视力通常呈负相关,即年龄越大,视力往往越差。协方差为零,表示两个变量之间没有线性关系
  • 解释含义:协方差的绝对值越大,表示两个变量之间的线性关系越强。但协方差的正负无法说明两个变量是正相关还是负相关。相关性的正负可以说明两个变量是正相关还是负相关,如上所述。相关性的绝对值越接近 1,表示两个变量之间的线性关系越强。例如,相关性为 0.8 表示两个变量之间存在较强的正相关关系。

4. 联系与互补:携手度量变量关系

协方差和相关性之间存在着密切的联系,互为补充:

  • 相关性是协方差的标准化形式,即用协方差除以两个变量的标准差之积。相关性不受变量单位的影响,使得不同单位变量之间的关系具有可比较性。
  • 协方差可以反映两个变量之间误差的大小,例如在机器学习中,可以利用协方差来计算模型的预测误差。
  • 相关性可以衡量两个变量之间相关的程度,例如在统计分析中,可以利用相关性来分析两个变量之间的关系。

5. 应用场景:助力数据分析与机器学习

协方差和相关性在数据分析和机器学习领域有着广泛的应用:

  • 数据分析:衡量变量之间相关性,例如分析客户收入与年龄之间的关系。识别异常值,例如检测传感器数据中的异常点。数据降维,例如选择相关性较强的特征进行降维。
  • 机器学习:计算模型的预测误差,例如均方误差的计算中包含协方差项。特征工程,例如利用相关性来选择特征或进行特征变换。评估模型性能,例如相关性可以用于评估分类模型的性能。