False discovery rate
(in Statistics) False discovery rate. Multiple testing problem에 대한 보정.
설명
동일한 모집단에서 데이터를 임의 추출하여 두 표본 집단을 만들어서 p-value를 측정하기를 반복하면 p-value의 분포를 구할 수 있는데, 이 때 만들어지는 분포는 균등 분포다. 반면 서로 다른 모집단에서 데이터를 임의 추출하여 p-value를 측정하기를 반복하면 비대칭도가 큰 분포를 얻게 된다(대부분의 값이 0에 가까울 것).
예를 들어 동일한 타입의 쥐(wild-type normal mice)를 두 집단으로 나누고 한 집단에는 약물을 주입하고(treatment group) 다른 집단에는 약물을 주입하지 않은 뒤(control group), 각 그룹에서 유전자 10,000개가 각각 얼마나 발현되는지를 측정하면 10,000개의 배치 쌍이 나온다.
만약 유전자 중 1,000개가 약물에 의해 영향을 받는다고 가정하면, 1,000개 배치 쌍의 p-value 분포는 비대칭도가 크고, 나머지 9,000개 배치 쌍의 p-value 분포는 균등 분포일 것이다. 한편, 10,000개 배치 쌍 전체에 대해 p-value 분포를 구하면 이 둘을 합친 형태의 분포(비대칭도가 약간 있는 형태)를 띈다.
FDR 보정은 이 성질을 활용하여 false-positive p-value의 값을 적절히 높여준다.
이름에 대해
Technically, the FDR is not a method to limit false positives, but the term is used interchangeably with the methods. In particular, it is used for the “Benjamini-Hochberg method.” —False Discovery Rates, FDR, clearly explained