Pearson correlation coefficient

공분산을 -1, 1 사이로 정규화한 값. 공분산은 두 변수 간 상관성의 방향만 알려줄 수 있지만 피어슨 상관 계수는 방향 뿐 아니라 상관성이 얼마나 강한지 정도도 알 수 있다. 상관계수의 절대값이 1에 가까울수록(즉, -1에 가깝거나 1에 가까울수록) 한 변수를 통해 다른 변수를 정확하게 예측할 수 있게 된다.

보통 그리스 문자 ρ\rho (rho)를 쓴다.

ρ=cov(X,Y)Var(X)Var(Y)\rho = \frac{cov(X, Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}}

기울기와 상관 계수

공분산과 달리 각 변수의 스케일 변화에 영향을 받지 않는다. 즉, 기울기의 부호가 변하지만 않는다면 기울기 값이 변하더라도 상관 계수 값이 바뀌지 않는다.

신뢰도와 유의 확률

두 점을 잇는 직선은 반드시 존재하므로 데이터 쌍이 두 개 뿐이라면 상관 계수는 반드시 -1 또는 1이 된다(x축이나 y축에 평행하지 않다면). 이 경우 상관성이 얼마나 강한지에 대한 아무런 정보도 얻을 수 없다. 데이터 쌍이 많아질수록 신뢰도가 증가할 것.

상관 계수의 유의 확률은 아래와 같은 의미를 가진다.

The probability that randomly drawn dots will result in a similarly strong relationship, or stronger.

다른 말로는 이렇게 표현할 수 있다.

점들 사이에 아무런 상관 관계가 없음에도 불구하고(즉, 영가설이 참임에도 불구하고) 이러한 상관 계수 또는 그보다 더 강한 상관 계수가 구해질 확률.

상관 계수의 절대값이 커지면 한 변수를 통해 다른 변수를 더 정확히 예측할 수 있다. 유의 확률이 낮아지면 그 예측에 대해 더 신뢰할 수 있게 된다.

ToDo: p-value 계산 방법 정리하기.

R2R^2

0에서 1사이의 퍼센트 값. R2=0.8R^2=0.8이라면 두 변수 사이의 관계가 분산의 80%를 설명한다는 뜻. 피어슨 상관 계수에 비해 더 해석하기 좋은 성질이 있다(R2R^2 값이 두 배이면 상관이 두 배 더 강하다는 뜻). 단 R2R^2는 항상 양수이기 때문에 상관 관계의 관계(positive or negative)를 알 수 없다.

Var(line)Var(line)이 추세선과 YY 사이의 분산이라고 할 때, R2R^2는 아래와 같이 계산한다.

R2=Var(Y)Var(line)Var(Y)R^2 = \frac{Var(Y) - Var(line)}{Var(Y)}

(simple linear regression인 경우) 피어슨 상관 계수를 제곱한 값과 같다. ToDo: 더 정리하기.

External links

2024 © ak