Pearson correlation coefficient
공분산을 -1, 1 사이로 정규화한 값. 공분산은 두 변수 간 상관성의 방향만 알려줄 수 있지만 피어슨 상관 계수는 방향 뿐 아니라 상관성이 얼마나 강한지 정도도 알 수 있다. 상관계수의 절대값이 1에 가까울수록(즉, -1에 가깝거나 1에 가까울수록) 한 변수를 통해 다른 변수를 정확하게 예측할 수 있게 된다.
보통 그리스 문자 (rho)를 쓴다.
기울기와 상관 계수
공분산과 달리 각 변수의 스케일 변화에 영향을 받지 않는다. 즉, 기울기의 부호가 변하지만 않는다면 기울기 값이 변하더라도 상관 계수 값이 바뀌지 않는다.
신뢰도와 유의 확률
두 점을 잇는 직선은 반드시 존재하므로 데이터 쌍이 두 개 뿐이라면 상관 계수는 반드시 -1 또는 1이 된다(x축이나 y축에 평행하지 않다면). 이 경우 상관성이 얼마나 강한지에 대한 아무런 정보도 얻을 수 없다. 데이터 쌍이 많아질수록 신뢰도가 증가할 것.
상관 계수의 유의 확률은 아래와 같은 의미를 가진다.
The probability that randomly drawn dots will result in a similarly strong relationship, or stronger.
다른 말로는 이렇게 표현할 수 있다.
점들 사이에 아무런 상관 관계가 없음에도 불구하고(즉, 영가설이 참임에도 불구하고) 이러한 상관 계수 또는 그보다 더 강한 상관 계수가 구해질 확률.
상관 계수의 절대값이 커지면 한 변수를 통해 다른 변수를 더 정확히 예측할 수 있다. 유의 확률이 낮아지면 그 예측에 대해 더 신뢰할 수 있게 된다.
ToDo: p-value 계산 방법 정리하기.
0에서 1사이의 퍼센트 값. 이라면 두 변수 사이의 관계가 분산의 80%를 설명한다는 뜻. 피어슨 상관 계수에 비해 더 해석하기 좋은 성질이 있다( 값이 두 배이면 상관이 두 배 더 강하다는 뜻). 단 는 항상 양수이기 때문에 상관 관계의 관계(positive or negative)를 알 수 없다.
이 추세선과 사이의 분산이라고 할 때, 는 아래와 같이 계산한다.
(simple linear regression인 경우) 피어슨 상관 계수를 제곱한 값과 같다. ToDo: 더 정리하기.