Data Statements for [Natural language processing](/pages/Natural%20language%20processing.txt): Toward Mitigating System Bias and Enabling Better Science ## Abstract NLP 연구 및 개발을 위한 '데이터 내역'을 제안. 이를 통해 NLP 분야와 관련된 편향 및 배제 문제를 개선할 수 있을 것으로 기대함: ## Introduction 기술이 널리 도입되면 사회에 광범위한 영향을 미치기 때문에 다양한 문제를 야기할 수 있음. 이 논문은 NLP에 집중. - 특정 인구집단에 대해서는 잘 작동하지 않는 문제. 예: 아동 또는 특정 사투리를 쓰는 집단. - 사회에 존재하는 편향을 강화하는 문제. 예: IT 분야에 이미 남성이 많기 때문에, 이력서 평가 시스템이 IT 분야 여성 지원자의 역량을 과소추정. 과학적 문제와 윤리적 문제가 모두 존재: - <과학>적 측면: 연구의 일반화 가능성 - [윤리](/pages/Ethics.txt)적 측면: 관심이 고조되고 있으나 아직 충분히 잘 정리되지 않은 상황. 이러한 문제를 개선하기 위해 연구자/개발자들이 자신의 연구결과 또는 제품에 대한 "데이터 내역"을 만들기를 제안함. 데이터 내역이란? - 연구 또는 제품에 사용된 데이터의 특징에 대한 상세한 정보를 담은 문서. - 심리학/의학 분야에서는 연구에 참여한 집단에 대한 표준 정보를 명시하는 관례가 있는데 이와 유사. ## Definitions (각종 용어 정의. 생략) ## Why Does NLP Need Data Statements? 최근 여러 연구에 따르면 학습 데이터셋의 제약으로 인해 NLP 시스템에 여러 윤리적 문제가 발생하고 있음. 예: 벡터 임베딩을 하는 경우 젠더에 대한 문화적 편견이 그대로 반영됨. 학습 데이터의 모든 편향을 제거하는 것을 불가능. 따라서 데이터의 특성을 설명하는 부가적인 정보가 필요함. ## Current Practice and Challenges Open Language Archives Community, Text Encoding Initiative 등 몇몇 단체에서 언어 데이터를 모으고 메타데이터를 정리하고 있으나 구체적인 정보는 부족. 따라서 모든 NLP 관련 연구, NLP를 활용하는 모든 시스템이 데이터 내역을 함께 제공할 것을 제안. ## Proposed Data Statement Schema 데이터 내역의 형식을 제안. 긴 형식: - **데이터 큐레이션의 목적** - **언어 다양성**. 예: en-US + 팔로알토 지역 - **화자 인구통계정보**. 나이, 젠더, 인종, 모국어, 사회경제적 지위, 발화 장애 여부 등. - **어노테이션 작업을 한 사람의 인구통계정보**. - **발화 상황**: 시간과 장소, 구어/수어/문어, 의도된 청취자 - **텍스트 특성**: 장르와 주제, 텍스트의 구조적 특성(?) - **녹음 품질**: 녹음된 발화인 경우, 녹음 장치의 성능, 녹음 당시의 상황 등 - **기타**: 데이터 사용에 영향을 줄 것으로 보이는 기타 정보들 - **출처**: 이미 있는 데이터를 활용하여 만들어진 데이터인 경우 원본 출처 짧은 형식: - 60-100글자 정도의 요약. 반드시 '긴 형식' 문서에 대한 링크를 담고 있어야 함. ## Case Studies "트위터 혐오 발언 데이터셋" 등에 대한 데이터 내역 예시 (생략) ## Related Work 의학 분야: - CONSORT(CONsolidated Standards of Reporting Trials) 가이드라인이 널리 쓰임. - <1993년>에 개발이 시작되었고, <2010년>에 최신 개정판이 나왔으며, 70여개의 의학저널에서 권장. [AI](/pages/Artificial%20intelligence.txt): - Gebru et al. (2018)이 [Datasheets for datasets](/pages/Datasheets%20for%20datasets.txt)를 제안 (는 [구글](/pages/Google.txt)에서 [AI 윤리](/pages/AI%20ethics.txt) 연구를 하다가 에 의해 해고됨) Algorithmic Impact Statements: - 2016, AI Now Institute 2018 등이 "환경 영향 평가서environmental impact statements"와 유사하게 "알고리즘 영향 평가서algorithmic impact statements"가 필요하다고 주장. ## Recommendations for Implementation 데이터 내역을 효율적으로 작성하기 위한 방법들 (생략) ## Conclusion and Future Work NLP 기술에서의 배제와 편향 문제를 개선하기 위해, NLP 시스템과 관련된 모든 출판물과 문서에 데이터 내역을 담을 것을 제안. **단기적 영향**: 데이터가 세상의(그리고 이 시스템에 영향받는 사람들의) 어떤 측면을 대표할 수 있고 대표할 수 없는지 드러내게 됨 **장기적 영향**: 배제와 편향 문제를 직접적으로 다루는 연구를 촉진하여 더 재표성있는 데이터셋 개발을 장려할 것. **분야별 영향**: - 학계: 연구 결과의 일반화 가능성, 재현 가능성 등에 대해 더 정교한 주장을 할 수 있게 됨 - 업계: 대중적 망신을 피하고 사람들이 더 잘 사용할 수 있는 제품을 만들 수 있게 됨