Okapi BM25
- 2025-09-13
- 별칭: BM25
tf–idf와 유사하지만 좀 더 개선된 함수. BM은 “Best Matching”의 줄임말. tf–idf와 유사한 형태이지만 두 가지 요소(문서 내 단어 빈도 증가에 따른 점수의 포화 정도를 제어, 문서 길이가 점수에 주는 영향을 제어)를 더 고려한다.
- 는 질의에 담긴 단어들(Multiset)
- 는 점수를 구하고자 하는 문서
- 은 전체 문서들의 평균 길이
- 는 문서 에 단어 가 나오는 빈도
- 은 상수. 보통은 1.2 또는 2.0 (term freq. saturation 상수)
- 는 상수. 보통은 0.75 (document length normalization 상수)
는 다음과 같다:
- 은 전체 문서의 수
- 는 단어 를 담고 있는 문서의 수
IDF component
- 안의 항은 이 음수가 되지 않도록 하기 위함.
- 분자, 분모의 는 Lidstone smoothing.
Term frequency component
- 은 단어 빈도 증가에 따른 점수의 포화 정도(term frequency saturation)를 제어한다. 1.2이면 빠르게 포화되고 2.0이면 천천히 포화된다.
- 는 문서 길이가 점수에 주는 영향도를 조절(document length normalization)한다. 문서가 전체 문서의 평균보다 길면 점수가 감소하고 문서가 평균보다 짧으면 점수가 증가하는데, 를 통해 그 영향도를 조절할 수 있다.