相关系数是衡量两个变量之间线性相关程度的统计量,其计算公式有以下几种形式:
皮尔逊相关系数
\[
\rho_{XY} = \frac{\text{Cov}(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}
\]
其中,\(\text{Cov}(X,Y)\) 是 \(X\) 和 \(Y\) 的协方差,\(D(X)\) 和 \(D(Y)\) 分别是 \(X\) 和 \(Y\) 的方差。
样本相关系数
\[
r = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n} (x_i - \bar{x})^2 \sum_{i=1}^{n} (y_i - \bar{y})^2}}
\]
其中,\(x_i\) 和 \(y_i\) 是两个变量分别对应的样本值,\(\bar{x}\) 和 \(\bar{y}\) 分别是 \(x\) 和 \(y\) 的均值,\(n\) 是样本的个数。
总体相关系数
\[
\rho = \frac{\text{Cov}(X,Y)}{\sigma_X \sigma_Y}
\]
其中,\(\text{Cov}(X,Y)\) 是 \(X\) 和 \(Y\) 的协方差,\(\sigma_X\) 和 \(\sigma_Y\) 分别是 \(X\) 和 \(Y\) 的标准差。
相关系数的一般形式
\[
r = \frac{\sum_{i=1}^{n} x_i y_i - n \bar{x} \bar{y}}{\sqrt{\sum_{i=1}^{n} x_i^2 - n \bar{x}^2 \sum_{i=1}^{n} y_i^2 - n \bar{x}^2 \sum_{i=1}^{n} y_i^2 + n \bar{x}^2 \bar{y}^2}}
\]
其中,\(n\) 是样本的个数,\(\sum_{i=1}^{n} x_i y_i\) 是 \(X\) 和 \(Y\) 的乘积的和,\(\sum_{i=1}^{n} x_i^2\) 和 \(\sum_{i=1}^{n} y_i^2\) 分别是 \(X\) 和 \(Y\) 的平方和。
这些公式在计算相关系数时略有不同,但核心思想都是通过协方差和方差(或标准差)来衡量两个变量之间的线性关系强度和方向。选择哪种公式取决于具体的应用场景和数据类型。