Conversational user interface

  • 2025-04-07
  • 별칭: 대화형 사용자 인터페이스

자연어에 기반한 대화형 사용자 인터페이스. ChatGPT 이후로 급격히 유행하고 있다.

메모

새 기술이 나오면 한동안 과하게 쓴다. LLM 덕에 자연어로 컴퓨터와 소통하는 기술이 나오자 사람들이 자연어를 과하게 쓰고 있다. 하지만 자연어는 한계가 분명한 소통 수단이다. 컴퓨터와 소통할 수 있는 좋은 수단들을 활용하지 않고 자연어에 지나치게 의존하는건 매우 비효율적이다.

상당히 새로운 디자인 소재가 나왔으니 캄브리아기 대폭발 마냥 다양한 실험을 해보면 좋겠는데 (내가 뭘 놓치고 있는 걸지도 모르지만) 생각만큼 다양한 UI 실험들이 나오고 있는 것 같지 않다. UI의 근본적인 변화는 Xerox PARC 이후에 대체로 50년 넘게 멈춰 있다는 느낌이 든다.

각종 실험들

2023년 12월 7일

어제 구글이 드디어 제미나이를 공개했는데 여러 데모 중 UX와 관련해서 인상 깊었던 점이 있어서 메모. 평범한 채팅 인터페이스에서 시작하지만, 사용자의 질문에 따라 때론 텍스트로 답하고 때론 ‘즉석에서’ 인터페이스를 만들어서 제공.

AI-인간으로 구성된 시스템에서 조만간 (어쩌면 지금도) 병목은 1) 인간이 의도 구체화하는 단계, 2) 인간의 의도를 AI에게 전달하는 단계(또는 채널), 3) AI의 응답을 인간에게 전달하는 단계(또는 채널), 4) AI의 응답을 인간이 이해하는 단계 등인 것 같다.

1)과 4)에 대한 문제는 언제나 있었고 AI가 있건 없건 꾸준히 계발을 해야할테고, 2)는 현재 “텍스트 입력”, “음성 입력”, “낙서” 등이 있는데 정교하지도 않고 효율적이지도 않다. 3)은 “텍스트 출력”, “음성 출력”, “이미지 출력” 등인데 역시나 정교하거나 효율적이지 않다.

대화 의도에 맞춰 즉석에서 미니 UI를 만들어 소통하는 방식은 2)와 3)을 크게 개선할 소지가 있어 보인다.

위 병목들을 공략하려는 시도 중 하나(MSR의 연구): microsoft.com/en-us/research/blog/pwr-using-representations-for-ai-powered-software-development/

1970년대 PARC처럼 근본적인 수준의 HCI 연구를 다시 하면 좋겠다. 당시엔 1950s 인지심리학에 기반하고 모니터+키보드+마우스 환경을 염두에 둔 HCI였다면, 이제는 체화된인지에 기반하고 멀티모달+XR+AI 환경을 염두에 둔 새로운 HCI. 지금은 HCAI, XAI, XR 등이 제각각 파편화되어 논의되는 느낌.

2023년 12월 10일

정적 타입은 의도를 구체화하고 이를 표현하는 과정을 돕는 효과가 있다. 인간-AI 협업 루프에서 병목은 대체로 AI가 아니라 인간인데(명확한 사고, 간명한 표현, AI의 응답을 이해), 정적 타입이 병목을 줄이는 역할을 일부 할 수 있을 것 같다. 예를 들면 이런 시도: https://microsoft.github.io/TypeChat/

또다른 관련 시도:

2023년 12월 14일

“Designing for AI” 중 텍스트의 한계에 대한 패널 토의를 LukeW가 메모한 내용:

There’s few affordances to help people understand the capabilities and limitations they are interacting with…. Text is a very imprecise medium.

2023년 12월 16일

“상단의 히어로 배너에 있는 버튼 텍스트를 검정색으로 바꿔” 대신, 버튼을 클릭한 후 “이걸 검정색으로 바꿔”라고 지시대명사를 쓸 수 있다(v0, https://webstudio.is/ 등). 컴퓨터와 자연어’만으로’ 소통하는 방식은 지금은 초기라서 신기하고 좋아 보이지만, 병목이다. 여러 인터랙션 방식에 대한 실험이 필요하다.

2023년 12월 19일

“AI and AR/VR/smart glasses are converging.” —Yann LeCun

A blog post by Meta CTO:

2023년 12월 25일

모질라 R. Parry의 2023년 3월 강연 영상. “Building humane UI with LM”

https://www.youtube.com/watch?v=kqFNjIBdXAc&feature=youtu.be

  • 현재: 텍스트 → 텍스트
  • 미래: 텍스트로 변환할 수 있는 아무거나 → 텍스트로부터 만들어낼 있는 아무거나

참고로 2023년 12월 25일 현재 R. Parry는 https://www.adept.ai/ 에서 일하는 중.

Adept 관련 또다른 발표 중 일부. 구글맵처럼 아무 UI나 줌인/줌아웃하기. 아래 예시에서는 소설 피터팬을 줌아웃해서 적절한 길이로 요약. 이 발표에서도 Jef Raskin의 흔적(THE)이 느껴진다. 영상: https://x.com/*a6g*/status/1739111420003049964

출처: https://www.youtube.com/watch?v=PAy_GHUAICw&feature=youtu.be, 연사는 Adept의 Amelia Wattenberger

마침 2023-12-09에 AI forum 2023에서 비슷한 주제의 발표가 있었다. “We are at the Xerox PARC moment of a new computing paradigm for coming decades.” 사람 생각하는거 다 비슷. https://www.youtube.com/watch?v=SLrRuTb6y1Q

2023년 12월 26일

위에서 링크한 Adept 사의 A. Wattenberger 발표에 대한 부연. 맵UI에서의 줌은 단순히 화면을 확대축소가 아님. 예: 줌아웃 했을 때 개별 상점을 작게 표시하는 게 아니라 아예 표시를 안함. 이런 관점에서 보면 줌UI는 추상화의 사다리(ladder of abstraction)를 오르내리게 하는 UI.

2차원 평면 뿐 아니라 무엇이든 추상화 단계를 나눌 수만 있다면 줌UI 적용 후보일 수 있음. 그 중 첫 번째 예시가 텍스트 줌인아웃. 줌아웃을 할수록 점점 더 본문이 요약되면서 짧아지고(요약에는 LLM을 활용), 추상화 수준을 가장 높이면(최대 줌아웃) 목차랑 장별 한줄 요약이 나오는 식.

줌 UI 실험은 전에도 있었음. J.Raskin과 아들 A.Raskin이 연구하던 The Humane Environment가 유명. A.Raskin은 모질라에서 UI 혁신 연구를 했었는데 위 발표를 한 Adept사에도 모질라 UI팀에 있던 사람이 합류. Raskin 부자으로부터 영향을 받았을수도. “humane”이라는 키워드를 쓰는 점도.

2023년 12월 30일

Design in the age of Artificial Intelligence: A literature review on the enhancement of User Experience Design with AI https://www.researchgate.net/publication/376682601_Design_in_the_age_of_Artificial_Intelligence_A_literature_review_on_the_enhancement_of_User_Experience_Design_with_AI

2024년 1월 6일

Building a Better Mouse App: New Modalities For Human-Computer Interaction 제목이 흥미로워서 일단 기록 https://openaccess.cms-conferences.org/publications/book/978-1-958651-87-2/article/978-1-958651-87-2_54

2024년 2월 6일

When Words Cannot Describe: Designing For AI Beyond Conversational Interfaces https://www.smashingmagazine.com/2024/02/designing-ai-beyond-conversational-interfaces/

2024년 2월 9일

UFO: A UI-Focused Agent for Windows OS Interaction, by Microsoft

https://huggingface.co/papers/2402.07939

2024년 2월 29일

비침습적 신경-운동 인터페이스 https://x.com/SussilloDavid/status/1762960425392513059

2024년 3월 2일

AI Chat Is Not (Always) the Answer https://www.nngroup.com/articles/ai-chat-not-the-answer/

2024년 3월 3일

Generative UI https://x.com/RhysSullivan/status/1763910096449610057

2024년 3월 7일

https://x.com/SullyOmarr/status/1765518219769696407

Chatbots will never become big because we (humans) are bad at asking good questions

2024년 3월 23일

Generative UI and Outcome-Oriented Design

https://www.nngroup.com/articles/generative-ui/

2024년 4월 4일

AI 시대의 디자이너의 역할

https://www.youtube.com/watch?v=jIWUaOcJdPs

2024년 4월 4일

Human-Computer Interface 아니라 Agent-Computer Interface (프린스턴 대학)

Simple LM-centric commands and specially-built input and output formats to make it easier for the LM to browse the repository, view, edit and execute code files.

2024년 4월 9일

Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs, by Apple

https://huggingface.co/papers/2404.05719

2024년 4월 15일

AI UX-Design Tools Are Not Ready for Primetime: Status Update

https://www.nngroup.com/articles/ai-design-tools-not-ready/

2024년 4월 28일

위 Adept 사의 A. Wattenberger 발표를 보고, 지도처럼 줌 할 수 있는 문서를 만들어봤다. 단계별 텍스트 요약은 GPT를 이용.

https://observablehq.com/@akngs/zoomable-text

만들어놓고 보니까 원하는 부분만 확대하는 기능이 있으면 좋겠다. 대충 훑어 읽다가 관심이 가는 부분만 확대해서 자세히 읽을 수 있도록. (LiquidText의 핀치 줌 UI와 유사하지만, “시각적으로” 텍스트를 눌러서 줄이는 방식이 아니라 “의미적으로” 텍스트를 요약해서 줄이는 방식.)

2024년 5월 14일

Yet another semantic zoom implementation. Looks great.

https://x.com/OrionReedOne/status/1790263523857019227

2024년 5월 25일

Remaking the UI for AI by a16z https://podcasts.apple.com/kr/podcast/remaking-the-ui-for-ai/id842818711?i=1000655784158

새 재료(AI)가 생겼으니 새 UI를 시도할 수 있게 됐고 해야 한다는 주장에 공감. 근데 깊이 있거나 구체적인 얘기는 없어서 살짝 아쉬움.

2024년 5월 27일

AI and Design Thinking https://www.sciencedirect.com/science/article/pii/S2096248724000201

2024년 8월 2일

MacOS 15.1에 추가된 Writing Tools UI https://x.com/*a6g*/status/1819362848449179858

VSCode의 Inline Chat UI. 채팅창에 “/doc” 처럼 슬래시코맨드를 쓸 수 있고 수정된 부분을 diff 형태로 보여준다. 개발자(혹은 IT에 어느 정도 익숙한 사용자)용 UI라서 이런 선택이 가능했던 것 같음. https://x.com/*a6g*/status/1819369237078855696

VSCode의 Ghost Text UI. 편집창에 코드 일부를 적으면 AI가 제안한 텍스트를 흐리게 보여줌. 탭을 누르면 채택. https://x.com/*a6g*/status/1819916708385313105

2024년 10월 24일

음악 생성 UI 사례. 자동화와 제어 가능성을 잘 조율한 훌륭한 사례. https://labs.google/fx/tools/music-fx-dj

2024년 10월 25일

레거시 GUI(인간을 위해 만들어진 기존 GUI)를 기계 판독 가능한 형태로 분석해주는 AI 모델. 에이전트 만들 때 유용하겠다. OmniParser

2024년 12월 3일

The Browser Company의 두번째 제품 프로토타입. AI가 제어하는 두번째 마우스 커서라는 개념이 흥미롭다. https://www.youtube.com/watch?si=-9nEh1QtIFEPUl94&v=C25g53PC5QQ&feature=youtu.be

2025년 3월 18일

텍스트 상자 크기에 맞춰 텍스트가 요약되거나 팽창. https://x.com/nateparrott/status/1901461088517890408

2025년 4월 7일

LukeW의 꾸준한 대화형 UI 실험들. https://www.lukew.com/ff/entry.asp?2087

2025 © ak