Evaluating large language models in generating synthetic HCI research data

  • 2024-09-08 (modified: 2025-07-24)
  • 출판일: 2023
  • 저자: Perttu Hämäläinen, Mikke Tavast, Anton Kunnari

Abstract:

Collecting data is one of the bottlenecks of Human-computer interaction (HCI) research. Motivated by this, we explore the potential of Large language models (LLMs) in generating synthetic user research data. We use OpenAI’s GPT-3 model to generate open-ended questionnaire responses about experiencing video games as art, a topic not tractable with traditional computational user models. We test whether synthetic responses can be distinguished from real responses, analyze errors of synthetic data, and investigate content similarities between synthetic and real data. We conclude that GPT-3 can, in this context, yield believable accounts of HCI experiences. Given the low cost and high speed of LLM data generation, synthetic data should be useful in ideating and piloting new experiments, although any findings must obviously always be validated with real data. The results also raise concerns: if employed by malicious users of crowdsourcing services, LLMs may make crowdsourcing of self-report data fundamentally unreliable.

dl.acm.org/doi/10.1145/3544548.3580688

초록

데이터 수집은 HCI 연구의 병목 중 하나. 거대언어모델(LLM; Large Language Model)로 합성 데이터를 만들고 평가하였음. OpenAI의 GPT-3를 사용. (ChatGPT 아님) GPT-3는 믿을 법한believable 결과를 만들어냄. 합성 데이터를 초기 연구용 저렴이 데이터로 써도 괜찮을 것 같음.

도입

상당수 HCI 연구는 구술 자료verbal data에 의존. LLM은 사람처럼 문장을 잘 만드니까 저렴이 합성 데이터를 만들면 연구 목적으로 유용하지 않을까? 단, 합성 데이터로 실제 데이터를 대체하려고 해서는 곤란. 실제 사람을 인터뷰하기 전에 인터뷰 설계에 활용하는 등이 적절할 것.

반사실적 질문에 기반한 탐색을 저렴하게 할 수 있을 것.

  • “만약 사용자에게 X에 대해 물어보면 어떤 종류의 대답을 할까?”
  • “X라는 주제에 대한 인터뷰로 흥미로운 데이터를 얻을 가능성이 있을까?”

좀 더 넓게는, 가상의 사용자 모델링 및 시뮬레이션 용도로도 쓸 수 있지 않을까.

배경 및 관련 연구

(LLM에 대한 요약은 생략) AI로 가상 사용자를 만들어 HCI 연구를 하려는 시도들이 있음. 이 논문은 사용자의 자가보고self-reports와 유사한 텍스트 만들기. 단 GPT-3는 인지과학/신경생리학 기반에 의해 작동하는 건 아니니 관찰가능한 행동적 수준에서의 모델로 간주되어야 함.

(나온지 6개월도 안된 논문인데 InstructGPT나 ChatGPT가 아닌 그냥 GPT-3를 사용. 지금은 ChatGPT-4가 있는 상황. LLM 관련된 많은 연구가 이런 어려움을 겪고 있는데, 연구를 하는 도중에 새로운 모델이 하도 많이 나와서 발표를 할 즈음이면 이미 낡은 모델로 한 연구가 됨)

데이터

‘예술로서의 비디오 게임 경험하기’라는 주제와 관련된 기존 연구(dl.acm.org/doi/10.1145/3474664)에서 수집한 실제 사람의 응답 데이터를 GPT-3가 생성한 데이터와 비교. GPT-3가 발표된 이후에 나온 데이터라서 GPT-3의 학습에 해당 데이터가 사용되었을 가능성이 없음.

text-davinci-002 모델로 아래 데이터를 수집.

  • 연구자: 게임을 예술로 경험한 적이 있나요?
  • 참여자: 네
  • 연구자: 그 상황을 되도록 구체적으로 적어주세요.
  • 참여자:
  • 연구자: 게임의 제목이 뭐였나요?
  • 참여자:
  • 연구자: 정확히 어떤 요인이 이 경험을 예술로 간주하게 만들었다고 생각하세요?
  • 참여자:

실험 1

GPT-3와 실제 데이터 구분하기. 합성 데이터가 유용하다면 실제 데이터랑 구분하기 어려워야 한다는 점에 착안한 실험.

성인 175명 중 스크리닝 후 155명 선정. 남성 55.48%, 여성 43.23%, 기타 1.3%. 18~35세 91.61%. 실제 데이터 10개, 합성 데이터 10개를 임의 추출하여 제시.

텍스트를 제시하고 사람인지 AI인지 맞추라고 한 뒤에 “왜 그렇게 생각하셨나요?”라고 열린 질문을 하여 대답도 수집. 너무 빨리 대답한 사람들, 열린 질문에 제대로 답하지 않은 사람들 걸러내고 분석.

결과:

  • 인간 데이터의 54.45%를 ‘인간’으로 잘 분류.
  • 합성 데이터의 40.45%를 ‘합성’으로 잘 분류.
  • 전체 데이터의 약 57%를 ‘인간’으로 분류하는 편향을 보임.
  • 열린 질문에 대한 답을 분석한 결과 정서, 감정 등을 보이는지 여부를 중요한 힌트로 판단하였음.

실험 2

GPT-3는 어떤 종류의 오류를 일으키나?

“게임을 예술로 경험했던 상황을 되도록 구체적으로 적어주세요”에 대한 GPT-3의 응답 100개를 분석. 두 명이 독립적으로 읽고 부적절한 응답을 분류. 이를 바탕으로 코드북 생성, 2차 분류를 수행. 세 명의 저자 중 남은 한 사람이 최종 분류를 수행.

결과:

  • 횡설수설(27.5%)
  • 다른 답변(20.5%)
  • 절반만 말하고 말기(15.2%)
  • 예술로 경험한 적이 없다고 답하기(프롬프트 상충)(8.2%)
  • 상상 속의 게임을 말하기(7.6%)
  • 게임 아닌 예술 일반에 대해 말하기(4.1%)
  • 명백한 내적 모순(3.5%)
  • 게임 아닌 다른 장르 말하기(1.8%)
  • 기타(11.7%)

명백한 내적 모순 예시: “저는 한 번도 게임이 예술이라고 느낀 적이 없어요. 몇 년 전에 림보를 플레이했는데 예술이라고 느꼈죠. 왜냐하면…” ㅋㅋㅋㅋ

실험 3

인간과 GPT-3 콘텐츠의 차이. 구체적으로 어떤 차이가 있는지 알아보려고, 가상의 RQ 두 개를 상정하고 분석을 해봤음.

  • RQ1: 플레이어들은 어떤 게임을 예술이라고 느끼나?
  • RQ2: 그렇게 느끼게 만드는 요소는 무엇인가?

(연구 안에서 가상의 연구를 하는 액자 구성. 이런 건 처음 봅니다ㅋㅋ)

GPT-3 기반 여러 모델(ada, babbage, curie, davinci, text-davinci-002)을 써서 후속 질문을 던져가며 완전한 178개의 인터뷰 결과를 생성(기존 연구의 인간 데이터와 동일한 n을 맞추기 위함)

참고: text-davinci-002는 instruction following model. 2023년 7월 기준 최신 버전은 003)

실제 데이터와 합성 데이터 각각에 대해 GPT-3를 써서 자동 정성 코딩automatic qualitative coding을 수행. text-curie-001 써서 각 코드의 임베딩 벡터(4096 차원)를 구함 (데이터 생성도 GPT로, 정성 코딩도 GPT로, 임베딩도 GPT로). UMAP으로 차원 축소를 한 후 HDBSCAN으로 클러스터링.

결과:

  • 인간 vs. 합성 데이터에서 매우 유사한 클러스터가 형성됨
  • 양쪽 데이터에서 언급한 게임이 일부 겹치긴 하지만 합성 데이터의 다양성이 상대적으로 낮음
  • 코딩 결과로 얻어진 키워드들을 분석해보니 큰 모델일수록 더 인간과 유사한 데이터를 생성(text-davinci-002는 예외)

토의

  • 합성 데이터는 초기 파일럿 리서치 단계, 실험 설계 단계 등에서 유용하게 쓰일 수 있겠음. 하지만 실제 실험은 진짜 데이터로 해야
  • 온라인 크라우드소싱 플랫폼 사용자들이 합성 데이터를 대신 써서 돈을 버는 식으로 악용할 수 있음
  • 가짜 SNS 계정 생성 등에 악용될 수 있음

한계

  • 실험1에 네이티브 영어 화자가 아님 사람도 포함되어 있었음. 네이티브 화자만 대상으로 하면 결과가 달라질 소지가 있음
  • “비디오 게임에서의 예술 경험”이라는 단일 주제에 대해서만 연구했음. 주제가 달라지면 결과가 다소 바뀔 소지가 있음

결론

  • GPT-3로 만든 합성데이터는 실제 인간의 응답과 대체로 유사했음
  • 다만 다양성이 상대적으로 부족하고, 다양한 오류와 편향이 존재함. 추가 연구가 필요
  • 연구 중 ChatGPT가 발표되는 등 새 모델이 계속 나오고 있음. (2023년 7월 현재 OpenAI의 최신 ChatGPT 모델은 “ChatGPT 4”)

2025 © ak