Designing an online infrastructure for collecting AI data from people with disabilities
Abstract
AI로 인해 장애가 있는 사람들(PWD; People With Disabilities)의 현실적/가상적 접근성 향상 기회가 생겨나고 있음. 하지만 PWD 관련 데이터가 부족하여 문제. 이 논문에서는 PWD의 자발적 참여를 통해 데이터를 대규모로 수집할 방법을 연구.
Introduction
PWD에게 유용한 다양한 AI 서비스가 개발됨. 예: Microsoft Seeing AI나 Google Look은 이미지를 읽어주고 DragonDictate는 말을 하면 텍스트로 변환해줌. 하지만 다양한 장애 차별을 일으키기도 함.
시각장애가 있는 사람이 찍은 사진에 대한 인식률이 상대적으로 낮다거나, 청각장애가 있는 사람의 발화에 대한 인식률이 상대적으로 낮다거나, 무인차가 휠체어 탄 사람을 잘 인식하지 못한다거나.
PWD 데이터 부족이 AI 편향의 문제 중 하나. 하지만 충분한 데이터 수집이 쉽지 않음. 장애의 종류는 굉장히 다양하고 인구수는 상대적으로 매우 적으며, 온라인으로 장애 관련 데이터를 자동 수집하는건 윤리적으로 민감.
비장애인이 시뮬레이션(고의로 한 눈 가리기 등)을 하여 데이터를 만들어내기도 하는데, 이런 데이터는 부정확할 뿐 아니라 장애에 대한 부정적 편견를 깅화할 우려가 있음.
PWD가 자발적으로 참여하는 잘 통제된 온라인 데이터 수집 시스템을 만들면 좋겠음. 이런 시스템을 잘 만들기 위해 다양한 장애가 있는 사람들 30명을 대상으로 연구를 하였고 이를 바탕으로 디자인 가이드라인을 제안하겠음.
Related Work
Performance Disparities of AI Systems
주변화된 사람들marginalized people에게 영향을 주는 기존 AI 시스템의 문제점에 대한 연구들을 소개하는 내용. 예: 백인 남성 위주로 학습시킨 얼굴 인식 시스템이 유색인종이나 여성의 얼굴을 잘 인식하지 못하는 문제.
PWD에게 미치는 영향에 대한 연구들
- 공정한 AI 모델 개발에 있어서 인종, 젠더, 사회경제적 지위 등에 비해 장애는 상대적으로 덜 주목을 받는 경향이 있음.
- 2018년 한 연구에 따르면 당시 대부분의 자율차 알고리즘 및 음식 배달 로봇이 휠체어를 제대로 인식하지 못했음.
- 음성 인식 소프트웨어는 대체로 특별한 억양을 가진 사람들의 발화를 제대로 인식하지 못함.
- 스마트 센서 시스템은 다양한 이유로 인해 신체의 형태가 ‘다른’ 사람들을 제대로 인식하지 못함.
- 영상 인식 시스템은 시각장애가 있는 사람이 찍은 이미지를 제대로 인식하지 못함. 프레이밍, 각도, 조명 등에 차이가 있기 때문.
Efforts to Create Representative Datasets
이런 문제로 인해 포괄적 AI 시스템에 대한 요구가 커져가는 상황이고 이에 따라 포괄적 데이터셋 수집이 중요한 문제로 떠오름.
하지만 일반적 데이터 수집 방법으로는 이런 데이터를 수집하기가 쉽지 않았음.
- 장애의 롱테일 분포
- 일부 장애의 경우 이동성 제약으로 인해 연구실까지 오기 어려울 수 있음
- 프라이버시 문제로 인해 온라인에서 장애 관련 데이터를 동의 없이 수집하기 어려운 면이 있음
- 장애를 시뮬레이션하여 얻어낸 데이터는 정확성이 떨어질 뿐 아니라 장애에 대한 부정적 편견을 강화할 우려가 있음.
Method
Interviews
- 재활병원(Shepherd Center in Atlanta, GA)의 도움으로 다양한 장애가 있는 참여자 30명을 모집, COVID-19으로 인해 비디오콜 인터뷰를 각 45분 간 진행.
- 1단계: AI에 대해 설명
- 2단계: 데이터셋을 모으려는 동기를 설명
- 3단계: 데이터셋 제공에 따른 우려 사항들에 대해 이야기 나눔. 장애인 관련 비영리 단체에서 포괄적 AI 개발을 위해 데이터를 수집하는 시나리오를 제시하고 어떤 데이터를 수집하는지 설명한 후, 어떤 우려가 있는지 듣기.
Online Survey
- 인터뷰를 마치고 각 참여자에게 데이터 수집용 온라인 설문을 제시(약 45분 소요). 이틀 내로 응답해달라고 요청.
- 1단계: 데이터 수집 시뮬레이션. 얼굴 인식을 위한 셀카, 집에 있는 아무 물건이나 찍고 해당 물건에 대해 설명하기, 짧은 영어 문장을 소리내어 읽거나 ASL로 말하는 영상, 몇 걸음 이동하는 영상, 영상을 듣고 받아 적기, 작은 점들을 마우스로 클릭하기.
- 2단계: 마무리 질문. “수집한 데이터를 이러저러한 용도로 쓰려고 하는데 괜찮으십니까?”에 대한 리커트 척도 답변.
Results
Prior Knowledge and Use of AI
- AI에 대한 이해: 거의 모든 참여자가 일정 수준의 이해를 보였음. 1명만 AI를 처음 들어본다고 대답.
- AI 실패 사례들: AI의 편향이라는 주제에 대해서는 3명만 알고 있다고 응답. 하지만 많은 참여자들이 AI와 관련한 개인적 실패 경험들이 접근성과 관련되어 있음을 인식하고 있었음. 하지만 일부는 본인들의 실수라고 인식.
Motivations for Contributing Data
- 데이터를 제공하려는 의지:
- 데이터 수집의 목적과 중요성을 설명했더니 24명은 기꺼이 제공하겠다고 답했으며 이 중 14명은 보상이 없더라도 하겠다고 응답.
- 하지만 어떤 데이터를 수집하는지를 민감하게 여겼음. 특히 “숨겨진 장애(예: ADHD, PTSD)“를 가진 사람들의 경우 얼굴 사진 등을 제공하길 꺼려함.
- 목적에 따라서도 차이가 있었음. 예를 들어 사법기관에서 사용된다거나 영리기업이 착한 척 하려는 용도(ethics washing, diversity theater)로 사용하는 것은 반대.
- 금전적 보상에 대해:
- 긍정과 부정이 섞여 있음. 부정 반응의 예: 돈을 주면 자발적으로 참여하고자 했던 적정한 수준보다 더 많이 참여하게 될 우려가 있다. (장기매매 합법화가 떠올랐어요)
우려되는 점
- 물리적/심리적 우려: 예. 참여에 필요한 과업을 제대로 마치지 못할까봐 걱정
- 프라이버시 우려: (생략)
- 교차성intersectionality 우려: 유색인종이면서 장애가 있는 경우 본인의 장애에 대해 얘기하길 더 꺼려할 수 있음. GE
Discussion
가이드라인
- 동기부여하기: 적절한 금전적 보상은 도움이 될 수 있으나 항상 작동하지는 않고, 지나친 보상은 데이터 품질을 오히려 저하시킬 수 있음. 따라서 다른 동기(예: 비영리 단체에 자동 기부하기, AI 기술 무료로 써보기 등)를 제공하는걸 추천.
- 소통하기: 데이터 수집의 목적, 프라이버시 문제에 대한 대비책 등을 미리 충분히 설명하기. 특히 “숨겨진 장애”인 경우 매우 중요.
- 절차의 접근성: 과정 전체가 뛰어난 접근성을 가지도록 만들 것. 다양한 장애 스펙트럼을 최대한 폭넓게 고려할 것.
Conclusion
PWD 데이터 수집을 위한 온라인 인프라는 더 포괄적인 AI 데이터셋을 대규모로 확보하기 위한 방법. 하지만 시스템이 잘 작동하려면 데이터를 제공하는 절차가 안전하고, 접근성이 높으며, 동기를 부여하는 방식으로 디자인되어야 함.
본 연구를 통해 디자인 가이드라인을 수립하였음. 이 연구가 포괄적 AI 데이터셋을 직접적이고 윤리적인 방식으로 수집하는 일에 도움이 되길 바람.