# Pearson correlation coefficient > 공분산을 -1, 1 사이로 정규화한 값. 공분산은 두 변수 간 상관성의 방향만 알려줄 수 있지만 피어슨 상관 계수는 방향 뿐 아니라 상관성이 얼마나 강한지 정도도 알 수 있다. 상관계수의 절대값이 1에 가까울수록(즉, -1에 가깝거나 1에 가까울수록) 한 변수를 통해 다른 변수를 정확하게 예측할 수 있게 된다. [공분산](https://wiki.g15e.com/pages/Covariance.txt)을 -1, 1 사이로 정규화한 값. 공분산은 두 변수 간 상관성의 방향만 알려줄 수 있지만 피어슨 상관 계수는 방향 뿐 아니라 상관성이 얼마나 강한지 정도도 알 수 있다. 상관계수의 절대값이 1에 가까울수록(즉, -1에 가깝거나 1에 가까울수록) 한 변수를 통해 다른 변수를 정확하게 예측할 수 있게 된다. 보통 그리스 문자 $\rho$ (rho)를 쓴다. $$ \rho = \frac{cov(X, Y)}{\sqrt{Var(X)}\sqrt{Var(Y)}} $$ ## 기울기와 상관 계수 공분산과 달리 각 변수의 스케일 변화에 영향을 받지 않는다. 즉, 기울기의 부호가 변하지만 않는다면 기울기 값이 변하더라도 상관 계수 값이 바뀌지 않는다. ## 신뢰도와 유의 확률 두 점을 잇는 직선은 반드시 존재하므로 데이터 쌍이 두 개 뿐이라면 상관 계수는 반드시 -1 또는 1이 된다(x축이나 y축에 평행하지 않다면). 이 경우 상관성이 얼마나 강한지에 대한 아무런 정보도 얻을 수 없다. 데이터 쌍이 많아질수록 신뢰도가 증가할 것. 상관 계수의 [유의 확률](https://wiki.g15e.com/pages/p-value.txt)은 아래와 같은 의미를 가진다. > The probability that randomly drawn dots will result in a similarly strong relationship, or stronger. 다른 말로는 이렇게 표현할 수 있다. > 점들 사이에 아무런 상관 관계가 없음에도 불구하고(즉, [영가설](https://wiki.g15e.com/pages/Null%20hypothesis.txt)이 참임에도 불구하고) 이러한 상관 계수 또는 그보다 더 강한 상관 계수가 구해질 확률. 상관 계수의 절대값이 커지면 한 변수를 통해 다른 변수를 더 정확히 예측할 수 있다. 유의 확률이 낮아지면 그 예측에 대해 더 신뢰할 수 있게 된다. : [p-value](https://wiki.g15e.com/pages/p-value.txt) 계산 방법 정리하기. ## $R^2$ 0에서 1사이의 퍼센트 값. $R^2=0.8$이라면 두 변수 사이의 관계가 분산의 80%를 설명한다는 뜻. 피어슨 상관 계수에 비해 더 해석하기 좋은 성질이 있다($R^2$ 값이 두 배이면 상관이 두 배 더 강하다는 뜻). 단 $R^2$는 항상 양수이기 때문에 상관 관계의 관계(positive or negative)를 알 수 없다. $Var(line)$이 추세선과 $Y$ 사이의 분산이라고 할 때, $R^2$는 아래와 같이 계산한다. $$ R^2 = \frac{Var(Y) - Var(line)}{Var(Y)} $$ (simple linear regression인 경우) 피어슨 상관 계수를 제곱한 값과 같다. : 더 정리하기. ## External links - [Pearson's Correlation, Clearly Explained!!!](https://www.youtube.com/watch?v=xZ_z8KWkhXE&list=PLblh5JKOoLUK0FLuzwntyYI10UQFUhsY9&index=19) - [R-squared, Clearly Explained!!!](https://www.youtube.com/watch?v=2AQKmw14mHM)