https://ojs.aaai.org/index.php/ICWSM/article/view/18058 성별에 따른 [위키백과](/pages/Wikipedia.txt) 독자들의 행동 차이를 분석. 방문자 성비, 성별에 따른 읽는 분량, 방문 목적, 선호하는 주제 차이 등. 위키백과를 좀 더 [평등](/pages/Equality.txt)하게 만들기 위한 사전 연구. ## Abstract - 위키백과는 세계 최대 규모의 백과사전이며 정보에 대한 평등한 접근을 지향 - 다양한 국가의 65031명을 대상으로 한 온라인 서베이와 이들의 접속 로그를 분석하였음 - 위키백과를 좀 더 평등하게 만들기 위한 사전 연구 ## Introduction - 위키백과의 규모: 아티클 5천4백만개, 매월 50만회 수정, 160개 이상 언어 지원, 월 15억 PV - 위키백과 편집자들 사이의 젠더 갭에 대해서는 여러 연구가 있으나 독자에 대한 연구는 부족했음 - 발견점: 남성 독자가 전체의 2/3를 차지, 방문 당 PV도 남성이 높음. 하지만 방문 목적은 유사. 관심 주제는 성별에 따른 차이가 있었음 - 함의: 인기도 기반 추천 엔진은, 성별 차이를 보정하지 않는다면, 존재하는 차이를 더 확대하는 부작용을 야기할 수 있음 ## Data and Methods - 어족의 다양성, 지리적 다양성 등을 고려하하여 14개 언어 위키백과를 선정. (중국은 포함, [한국](/pages/Republic%20of%20Korea.txt)은 없음) - 2019년 6월 말에 약 일주일 간 방문자 대상 온-사이트 온라인 서베이를 진행하였고 해당 사용자의 로그를 함께 분석. - 서베이로는 인구통계학적 특성들(연령, 젠더, 학력, 지역, 언어), 방문 목적(동기, 필요한 정보, 사전 지식) 등을 질의. 서버 로그로는 접속 시간, 세션 길이, 읽은 주제들, 읽는 도중 언어를 변경하였는지 여부 등을 수집. - 샘플링: 각 언어 위키백과 별로 방문자 중 일정 비율을 샘플링하여 화면 상단에 설문 참여 안내 링크를 보여주었음 - 아티클 분류: - 위키페이지와 연결된 위키데이터 아이템을 기반으로 인물에 대한 페이지인지 여부를 검사. - 44개 주제에 대한 분류 모델을 학습시켜서([[fastText]] 이용) 이를 기반으로 주제를 분류. ## Results 방문 및 체류: - (a) 독자 중 여성이 상대적으로 과소대표되어 있으며, 국가별 차이가 큰 편이었음. 노르웨이 등 GGI(; WEF) 기준 상위 2위인 국가조차도 차이가 심함. 같은 영어 위키백과를 읽는 독자라고 하더라고 국가별(예: 미국과 인도) 성비에는 큰 차이가 있었음. - (b) 16개 언어 버전 독자집단 모두에서 남성이 여성에 비해 방문 당 더 오랜 시간을 체류. 결국 PV 기준으로는 더 큰 차이가 벌어짐. 가장 인기 있는 아티클 상위 50개 내에 여성 독자가 더 많은 사례가 없었음. 방문 목적: - 방문 목적은 대체로 유사 관심 주제: - 관심 주제에는 젠더에 따른 차이가 컸음 - 한편, Culture.Biographies를 보면 젠더 차이가 적어보이지만, 어떤 성별의 독자가 어떤 성별의 사람에 대한 글을 읽는지를 분석해보면, 남성은 남성, 여성은 여성에 대한 글을 더 많이 읽는 패턴이 발견됨. (Women in Red 프로젝트가 중요한 이유. https://en.wikipedia.org/wiki/Women_in_Red) ### Discussion and Related Work - 독자의 젠더 차이의 원인 중 하나는 위키백과 콘텐츠의 젠더 차이일 가능성이 높음. (https://en.wikipedia.org/wiki/Gender_bias_on_Wikipedia) - Beyond binary: 6만명 중 417명(약 0.7%)이 넌-바이너리를 선택하였음. 통계적으로 분석할 수 있는 경우에는 되도록 그래프에 표시하기 위해 노력하였음 (위키미디어 가이드라인이 있다고 한다) ### Conclusions - 시간이 지난 뒤 동일 조사를 다시 수행하여 비교해보면 위키백과가 얼마나 개선되고 있는지 평가할 수 있을 것