Global gender differences in Wikipedia readership

ojs.aaai.org/index.php/ICWSM/article/view/18058

성별에 따른 위키백과 독자들의 행동 차이를 분석. 방문자 성비, 성별에 따른 읽는 분량, 방문 목적, 선호하는 주제 차이 등. 위키백과를 좀 더 평등하게 만들기 위한 사전 연구.

Abstract

  • 위키백과는 세계 최대 규모의 백과사전이며 정보에 대한 평등한 접근을 지향
  • 다양한 국가의 65031명을 대상으로 한 온라인 서베이와 이들의 접속 로그를 분석하였음
  • 위키백과를 좀 더 평등하게 만들기 위한 사전 연구

Introduction

  • 위키백과의 규모: 아티클 5천4백만개, 매월 50만회 수정, 160개 이상 언어 지원, 월 15억 PV
  • 위키백과 편집자들 사이의 젠더 갭에 대해서는 여러 연구가 있으나 독자에 대한 연구는 부족했음
  • 발견점: 남성 독자가 전체의 2/3를 차지, 방문 당 PV도 남성이 높음. 하지만 방문 목적은 유사. 관심 주제는 성별에 따른 차이가 있었음
  • 함의: 인기도 기반 추천 엔진은, 성별 차이를 보정하지 않는다면, 존재하는 차이를 더 확대하는 부작용을 야기할 수 있음

Data and Methods

  • 어족의 다양성, 지리적 다양성 등을 고려하하여 14개 언어 위키백과를 선정. (중국은 포함, 한국은 없음)
  • 2019년 6월 말에 약 일주일 간 방문자 대상 온-사이트 온라인 서베이를 진행하였고 해당 사용자의 로그를 함께 분석.
  • 서베이로는 인구통계학적 특성들(연령, 젠더, 학력, 지역, 언어), 방문 목적(동기, 필요한 정보, 사전 지식) 등을 질의. 서버 로그로는 접속 시간, 세션 길이, 읽은 주제들, 읽는 도중 언어를 변경하였는지 여부 등을 수집.
  • 샘플링: 각 언어 위키백과 별로 방문자 중 일정 비율을 샘플링하여 화면 상단에 설문 참여 안내 링크를 보여주었음
  • 아티클 분류:
    • 위키페이지와 연결된 위키데이터 아이템을 기반으로 인물에 대한 페이지인지 여부를 검사.
    • 44개 주제에 대한 분류 모델을 학습시켜서(fastText 이용) 이를 기반으로 주제를 분류.

Results

방문 및 체류:

  • (a) 독자 중 여성이 상대적으로 과소대표되어 있으며, 국가별 차이가 큰 편이었음. 노르웨이 등 GGI(Gender-gap index; WEF) 기준 상위 2위인 국가조차도 차이가 심함. 같은 영어 위키백과를 읽는 독자라고 하더라고 국가별(예: 미국과 인도) 성비에는 큰 차이가 있었음.
  • (b) 16개 언어 버전 독자집단 모두에서 남성이 여성에 비해 방문 당 더 오랜 시간을 체류. 결국 PV 기준으로는 더 큰 차이가 벌어짐. 가장 인기 있는 아티클 상위 50개 내에 여성 독자가 더 많은 사례가 없었음.

방문 목적:

  • 방문 목적은 대체로 유사

관심 주제:

  • 관심 주제에는 젠더에 따른 차이가 컸음
  • 한편, Culture.Biographies를 보면 젠더 차이가 적어보이지만, 어떤 성별의 독자가 어떤 성별의 사람에 대한 글을 읽는지를 분석해보면, 남성은 남성, 여성은 여성에 대한 글을 더 많이 읽는 패턴이 발견됨. (Women in Red 프로젝트가 중요한 이유. https://en.wikipedia.org/wiki/Women_in_Red)

Discussion and Related Work

  • 독자의 젠더 차이의 원인 중 하나는 위키백과 콘텐츠의 젠더 차이일 가능성이 높음. (https://en.wikipedia.org/wiki/Gender_bias_on_Wikipedia)
  • Beyond binary: 6만명 중 417명(약 0.7%)이 넌-바이너리를 선택하였음. 통계적으로 분석할 수 있는 경우에는 되도록 그래프에 표시하기 위해 노력하였음 (위키미디어 가이드라인이 있다고 한다)

Conclusions

  • 시간이 지난 뒤 동일 조사를 다시 수행하여 비교해보면 위키백과가 얼마나 개선되고 있는지 평가할 수 있을 것

2024 © ak