Pearson correlation coefficient

공분산을 -1, 1 사이로 정규화한 값. 공분산은 두 변수 간 상관성의 방향만 알려줄 수 있지만 피어슨 상관 계수는 방향 뿐 아니라 상관성이 얼마나 강한지 정도도 알 수 있다. 상관계수의 절대값이 1에 가까울수록(즉, -1에 가깝거나 1에 가까울수록) 한 변수를 통해 다른 변수를 정확하게 예측할 수 있게 된다.

보통 그리스 문자 $\rho$ (rho)를 쓴다.

\rho = \frac{cov(X, Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}

기울기와 상관 계수

공분산과 달리 각 변수의 스케일 변화에 영향을 받지 않는다. 즉, 기울기의 부호가 변하지만 않는다면 기울기 값이 변하더라도 상관 계수 값이 바뀌지 않는다.

신뢰도와 유의 확률

두 점을 잇는 직선은 반드시 존재하므로 데이터 쌍이 두 개 뿐이라면 상관 계수는 반드시 -1 또는 1이 된다(x축이나 y축에 평행하지 않다면). 이 경우 상관성이 얼마나 강한지에 대한 아무런 정보도 얻을 수 없다. 데이터 쌍이 많아질수록 신뢰도가 증가할 것.

상관 계수의 유의 확률은 아래와 같은 의미를 가진다.

The probability that randomly drawn dots will result in a similarly strong relationship, or stronger.

다른 말로는 이렇게 표현할 수 있다.

점들 사이에 아무런 상관 관계가 없음에도 불구하고(즉, 영가설이 참임에도 불구하고) 이러한 상관 계수 또는 그보다 더 강한 상관 계수가 구해질 확률.

상관 계수의 절대값이 커지면 한 변수를 통해 다른 변수를 더 정확히 예측할 수 있다. 유의 확률이 낮아지면 그 예측에 대해 더 신뢰할 수 있게 된다.

ToDo: p-value 계산 방법 정리하기.

$R^2$

0에서 1사이의 퍼센트 값. $R^2=0.8$ 이라면 두 변수 사이의 관계가 분산의 80%를 설명한다는 뜻. 피어슨 상관 계수에 비해 더 해석하기 좋은 성질이 있다( $R^2$ 값이 두 배이면 상관이 두 배 더 강하다는 뜻). 단 $R^2$ 는 항상 양수이기 때문에 상관 관계의 관계(positive or negative)를 알 수 없다.

$Var(line)$ 이 추세선과 $Y$ 사이의 분산이라고 할 때, $R^2$ 는 아래와 같이 계산한다.

R^2 = \frac{Var(Y) - Var(line)}{Var(Y)}

(simple linear regression인 경우) 피어슨 상관 계수를 제곱한 값과 같다. ToDo: 더 정리하기.

기울기와 상관 계수

신뢰도와 유의 확률

R2R^2R2

External links

$R^2$