p-value
영가설이 참임에도 불구하고 실험을 통해 관측한 결과와 같거나 더 극단적인 결과를 얻을 확률. 유의 확률이라고도 부른다.
유의 수준
1925년 로널드 피셔가 Statistical methods for research workers에서 0.05를 처음으로 제안한 후 학계에 널리 통용되고 있다. 2017년에는 일군의 연구자들이 0.05는 너무 높다며 0.005로 낮추자는 제안을 하기도 했다(Redefine statistical significance).
예시 (bernoulli process, two-sided)
동전을 4회 던졌는데 앞면이 3회 나왔다. 이 동전은 편향된 것 같다.
- 영가설: 이 동전은 편향되지 않다.
- 대립 가설: 이 동전은 편향되었다.
- p-value의 의미: 이 동전에 편향이 없음에도 불구하고 4회 중 앞면이 3회 이상 나오거나 뒷면이 3회 이상 나올 확률
계산:
해석:
- 편향되지 않은 동전을 4회 던지는 실험을 1000번 시행했을 때 이번 시행과 동일하게 희귀하거나 더 희귀한 결과는 625번 나올 수 있다.
- 따라서 이 결과만 보고 영가설을 기각하기 어렵다. 하지만 영가설이 확실히 참이라는 뜻은 아니다. 즉, 4회 던졌는데 앞면이 3회 나왔다고 해서 동전에 편향이 있다고 여기긴 어렵다. 하지만 편향이 없다고 완전히 확신해도 된다는 말은 아니다.
만약 6회 던졌는데 모두 뒷면만 나왔다면?
계산:
해석:
- 편향되지 않은 동전을 4회 던지는 실험을 1000번 시행했을 때 이번 시행과 동일하게 희귀하거나 더 희귀한 결과는 약 32번 나올 수 있다.
- 따라서 영가설을 기각하는 게 타당하다. 하지만 영가설이 확실히 거짓이라는 뜻은 아니다. 즉, 6회 던졌는데 모두 뒷면만 나왔다면 아마 동전에 편향이 있다고 보는 게 맞을 것이다. 하지만 편향이 있다고 완전히 확신해도 된다는 말은 아니다.
효과 크기와의 관계
p-value는 효과 크기와 별개이다. 효과 크기가 아무리 작더라도 충분히 많은 관찰을 했으면 낮은 p-value를 얻을 수 있다. 쉽게 말해서, p-value는 두 약 사이의 차이 유무에 관한 것일 뿐 차이의 크기에 관한 것이 아니다.