Erzhen Hu, Yanhe Chen, Mingyi Li, Vrushank Phadnis, Pingmei Xu, Xun Qian, Alex Olwal, David Kim, Seongkook Heo, Ruofei Du
DialogLab: Authoring, Simulating, and Testing Dynamic Human-AI Group Conversations
(Abstract) Designing compelling multi-party conversations involving both humans and AI agents presents significant challenges, particularly in balancing scripted structure with emergent, human-like interactions. We introduce DialogLab, a prototyping toolkit for authoring, simulating, and testing hybrid human-AI dialogues. DialogLab provides a unified interface to configure conversational scenes, define agent personas, manage group structures, specify turn-taking rules, and orchestrate transitions between scripted narratives and improvisation. Crucially, DialogLab allows designers to introduce controlled deviations from the script—through configurable agents that emulate human unpredictability—to systematically probe how conversations adapt and recover. DialogLab facilitates rapid iteration and evaluation of complex, dynamic multi-party human-AI dialogues. An evaluation with both end users and domain experts demonstrates that DialogLab supports efficient iteration and structured verification, with applications in training, rehearsal, and research on social dynamics. Our findings show the value of integrating real-time, human-in-the-loop improvisation with structured scripting to support more realistic and adaptable multi-party conversation design.
(Introduction) The simulation and creation of conversations with embodied agents have long been integral to virtual entertainment environments, especially for non-player characters (NPCs). Beyond gaming, these systems are increasingly deployed in diverse contexts such as education [60], healthcare [77], professional training [47], and retail [53]. Initially constrained by rule-based or scripted mechanisms and limitations in natural language understanding (NLU), the design of embodied agents have more recently leveraged Large Language Models (LLMs) to deliver more adaptive, context-aware dialogues.
Commercial tools like Character.AI1 and Replika2 illustrate this trend, enabling users to create custom AI personalities for one-onone conversations. However, as human-AI interaction continues to evolve, user needs extend beyond single-agent dialogues. In many real-world scenarios, users participate in multi-party conversations, where multiple agents and humans interact under a blend of prescripted and emergent conditions. These settings introduce new complexities—users must navigate shifting roles, manage turn-taking protocols, and negotiate control of the conversation as they move between reactive and proactive stances. For instance, a human trainee may lead with structured questions in a medical simulation [75] but revert to a reactive role when questioned by an AI panelist. In multi-agent contexts, these transitions require sophisticated system support to maintain coherence across overlapping speaking turns, interruptions, and dynamic topic shifts.
Through a formative study, we sought to identify key challenges faced by conversation designers and developers: (1) Simulating how scripted agents balance rigidity and flexibility. (2) Testing interactions with human participants who deviate from expected behaviors. These challenges reveal two core design tensions: First, the authoring and simulating of multi-party hybrid human-AI dialogue systems remain complex, often demanding significant programming or prompt engineering [103], hindering rapid iteration by designers. Even with scripted guidance, balancing narrative structure reflecting diverse group dynamics with unpredictable human input requires extensive testing. Second, designers must navigate a trade-off between structured scripts, which provide consistency and safety, and improvised human-led dialogue, which fosters realism, user agency, and spontaneity [65, 104]. Current approaches often represent two extremes: fully scripted interactions, which ensure control but lack adaptability and spontaneity [55, 108]; and fully generative and automated systems, which allow open-ended dialogue but are difficult to steer toward specific goals [59, 106]. While structure is critical in domains like healthcare or education, rigid scripting can make users feel passive and limit adaptability. Generative systems, by contrast, allow open-ended interaction but lack control for task-oriented or training scenarios. These challenges become even more pronounced in multi-party and group settings due to the increased complexity of managing roles, turntaking, and recovery from interruptions [38, 39, 93].
To address these challenges, we present DialogLab, a unified authoring tool for creating multi-party conversations with hybrid scripted/LLM-driven embodied agents. Our system enables designers to: (1) configure basic persona, scene, and conversation setups that help define diverse group dynamics (Fig. 1a-b); (2) embed LLMdriven agents during prototyping to simulate human unpredictability within pre-defined narratives (Fig. 1c); (3) incorporates features designed to facilitate verification and reflection of these complex group and conversational dynamics.
To evaluate DialogLab, we conducted a user study with five regular users and nine domain experts who used DialogLab to author and test multi-party conversation scenarios. Participants appreciated the diverse conversation flexibilities and agency during the authoring, and reported clear verification of group behaviors, and strong support for real-time improvisation and testing. These findings demonstrate DialogLab ’s ability to support structured authoring, dynamic simulation, and reflective verification of complex hybrid human-AI conversations.
In summary, our contributions are:
A flexible framework and authoring paradigm for multi-party human-AI conversations, enabling configuration of group dynamics, social protocols, and hybrid scripted/improvised interactions.
DialogLab, an open-source system3 implementing this framework, supporting the workflow of authoring, simulating, and interactively testing multi-party dialogues.
A human evaluation comparing human agents with reactive agents in group settings and a user study of DialogLab with regular users and domain experts, demonstrating its effectiveness in building and simulating human-AI group conversations.
(Conclusion) We present DialogLab, a prototyping toolkit for creation and iterative design of multi-party conversations between humans and AI agents. DialogLab allows users to configure various conversation attributes, including agent roles, interaction patterns, and turn-taking dynamics, to simulate realistic and dynamic dialogues. The toolkit supports both scripted and adaptive conversational elements, offering a hybrid approach that combines the structure of predetermined dialogues with the flexibility of spontaneous interactions. DialogLab aims to streamline the development process by providing an intuitive interface for conversation setup and realtime testing and validation, addressing key challenges such as the complexity of configuration, uncertainty of AI responses, and lack of systematic refinement methods. Our evaluation with 14 participants demonstrates its effectiveness in enhancing user control, reducing development time, and facilitating realistic multi-party conversation simulations across various domains. We hope that DialogLab’s approach and contributions will help advance and inspire the emerging field of Human-AI group conversation dynamics.
Dynamic Human-AI Group Conversations
대형 언어 모델(LLM)의 발전으로 가상 비서, 디지털 휴먼 등 인공지능 에이전트와 인간이 그룹을 이루어 다자간 대화(group conversation)를 나누는 가상 시나리오(포스터 세션, 모의 면접, 디자인 리뷰 등)가 활성화되고 있다.
하지만 다인원이 참여하는 동적 대화 파이프라인은 발화 순서(turn-taking) 제어, 역할 변화, 끼어들기(interruption) 등의 복잡한 역학 관계가 끊임없이 발생하여 이를 직관적으로 설계하고 테스트하기 어렵다.
기존 방식들의 trade-offs
100% 스크립트 방식: 대화의 흐름과 순서를 완벽하게 통제할 수 있고 일관성이 높지만, 대화가 너무 정형화되어 실제 인간 참여자의 돌발 행동이나 즉흥적인 질문 및 개입에 유연하게 대처하지 못해 딱딱하고 현실성이 떨어진다.
100% 생성형(LLM) 방식: 프롬프트만으로 다채롭고 자연스러운 프리토킹을 구사할 수 있지만, 발화 순서가 꼬이거나 AI가 삼천포로 빠지기 쉽고(hallucination), 디자이너가 원하는 특정 목적이나 교육 목표(scenario goal)로 대화를 유도하기 어렵다.
디자이너의 높은 진입장벽: 기존 연구들은 일대일 대화나 고정된 시나리오 봇 개발에 치중되어 있었다. 다자간 대화 시나리오를 설계하고 테스트하려면 복잡한 코딩이나 방대한 프롬프트 엔지니어링이 필요하여, 정작 대화 콘텐츠를 짜야 하는 기획자나 디자이너들이 빠르게 대안을 실험(iteration)하기 극도로 어려운 환경이다.
DialogLab
인간과 복수의 AI 에이전트들이 함께 참여하는 복잡한 다자간 대화를 직관적으로 설계(authoring)하고, 시뮬레이션(simulating) 및 검증(testing)할 수 있는 프로토타입 툴킷으로, 스크립트의 구조적 안정성과 LLM의 즉흥성(improvisation)을 결합했다.
통합 인터페이스 제공(macro-to-micro): 코딩 없이도 가상 대화 공간(scene)을 설정하고, 마우스 클릭과 인스펙터 설정을 통해 AI 에이전트의 페르소나 정의, 그룹 구조(parties), 발화 규칙(turn-taking rules)을 직관적으로 구성할 수 있다.
하이브리드 대화 조율(recovery 지원): 정해진 시나리오 플로우를 따르다가도, 인간 참여자가 돌발 발화(deviation)를 했을 때 AI 에이전트들이 즉흥적으로 대응하고 다시 원래 시나리오 궤도로 자연스럽게 복귀(recovery)할 수 있도록 시스템적으로 지원한다.
시뮬레이션 및 테스트 엔진(simulated-human): 실제 인간을 데려오기 전, 인간의 예측 불가능성을 흉내 내도록 설정된 검증용 AI 에이전트(AI human agent)를 투입한다. 이 가상 인간에게 주제 이탈(drift), 질문(question), 감정 표현(emotional) 등의 인텐트를 주어 시스템이 얼마나 잘 버티고 복구되는지 실시간 모니터링하고 검증(verification)할 수 있다.
평가 및 주요 기여점
사용성 및 전문가 필드 테스트 (N=14): 5명의 일반 사용자와 9명의 대화 디자인 도메인 전문가를 대상으로 유저 스터디를 진행한 결과, 다자간 대화 시스템 개발 시간을 획기적으로 줄이고 복잡한 그룹 행동 방식과 대화 역학을 구조적으로 검증할 수 있음을 입증했다.
인간 통제 모드(human-control)의 우수성: 실험 결과, 사용자가 직접 suggestions 중 선택하여 개입하는 인간 통제 모드가 단순 반응형(reactive)이나 완전 자율형(autonomous) 모드에 비해 통계적으로 유의미하게 높은 몰입도(engagement, p < .05)를 보여주며 가장 현실적인 시뮬레이션 모드임이 증명되었다.
소규모 시뮬레이션 연구 (50개 대화 검증): 5개 시나리오(WoW 게임, 디자인 리뷰, 아이스브레이킹 등)에서 총 50개의 대화 인스턴스를 블라인드 테스트한 결과, 평가자의 62.5%가 자율 개입형 모드를 선호했으며 실제 인간 대화 특유의 미묘함(subtle), 유머, 자연스러운 무질서함(messiness)이 훌륭하게 표현되었다고 응답했다.
오픈소스 기여 및 활용 분야: 다자간 대화의 사회적 프로토콜을 설정할 수 있는 아키텍처 프레임워크를 정립하고 DialogLab 시스템을 오픈소스로 공개했으며, 의료/직무 교육용 롤플레잉 시뮬레이션, 게임 내 NPC 역학 관계 테스트, 가상 포커스 그룹 인터뷰 등 다양한 도메인에 적용 가능하다.
장점
체계적인 다자간 통제력: 마이크로 페르소나 설정과 매크로 시나리오 노드를 결합하여, 대화가 목표를 벗어나지 않으면서도 생동감 넘치는 하이브리드 대화 환경을 안전하게 구축한다.
자율적 턴테이킹 조율: 인간이 언제 개입하더라도 오케스트레이터가 맥락을 실시간 계산하여 적절한 AI 에이전트에게 발화권을 넘기므로 흐름이 부드럽게 유지된다.
사전 에러 디버깅 최적화: 대화 분석 대시보드를 통해 턴테이킹 균형, 감정 변화, 주제 일관성을 시각화하여 실제 유저 테스트 전 AI의 결함 구간을 선제적으로 잡아낸다.
한계점
연산 비용 및 미세 레이턴시: 여러 AI 에이전트가 동시에 대화 컨텍스트와 페르소나 관계식을 LLM을 통해 연산해야 하므로, API 비용이 많이 들고 즉각적인 인터랙션 시 약간의 답변 지연(latency)이 발생할 수 있다.
페르소나 균일화(hallucination 위험): 대화가 수십 턴 이상 길어지면 에이전트들이 이전 대화 히스토리를 대량 공유하면서 각자가 가진 고유의 캐릭터 개성(sharpness)이 흐려지거나 어조가 동질화되는 경향이 있다.
향후과제
멀티모달 및 파라언어 플러그인: 텍스트 중심의 시뮬레이션을 넘어, 아바타의 시선 처리(eye contact), 미세 표정(micro-expressions), 목소리 톤 변조 및 타이밍 제어를 결합한 완전한 멀티모달 저작 도구로 확장할 것이다.
초대형 그룹 대화 스케일링: 소규모 그룹을 넘어 100인 이상의 대규모 가상 미팅이나 강의실 환경에서도 레이턴시와 오케스트레이션 붕괴 없이 견고하게 작동하도록 컨텍스트 관리 시스템을 고도화할 예정이다.
Erzhen Hu, Mingyi Li, Jungtaek Hong, Xun Qian, Alex Olwal, David Kim, Seongkook Heo, Ruofei Du
Thing2Reality: Enabling Spontaneous Creation of 3D Objects from 2D Content using Generative AI in XR Meetings
(Abstract) During remote communication, participants often share both digital and physical content, such as product designs, digital assets, and environments, to enhance mutual understanding. Recent advances in augmented communication have facilitated users to swiftly create and share digital 2D copies of physical objects from video feeds into a shared space. However, conventional 2D representations of digital objects limits spatial referencing in immersive environments. To address this, we propose Thing2Reality, an Extended Reality (XR) meeting platform that facilitates spontaneous discussions of both digital and physical items during remote sessions. With Thing2Reality, users can quickly materialize ideas or objects in immersive environments and share them as conditioned multiview renderings or 3D Gaussians. Thing2Reality enables users to interact with remote objects or discuss concepts in a collaborative manner. Our user studies revealed that the ability to interact with and manipulate 3D representations of objects significantly enhances the efficiency of discussions, with the potential to augment discussion of 2D artifacts.
(Introduction) Shared artifacts, including digital resources (e.g., text, images, videos), and physical objects (e.g., prototypes, printouts), play a crucial role in facilitating effective communication of spatial concepts and the generation of design ideas, especially in creative fields such as product design, architecture, and marketing strategy development. They provide common spatial reference points that bridge gaps between collaborators, enhancing creative exploration and ideation [4]. Besides physical artifacts, designers frequently use online platforms like Google and Pinterest to source relevant digital artifacts that can support their design processes [24]. However, using shared artifacts in remote meetings often pose challenges, especially in scenarios that require quick and spontaneous sharing, such as brainstorming and early stage design sessions. First, artifacts shared via remote meetings are typically in 2D, whether they are captured via camera or retrieved from online repositories, limiting the understanding compared to interactions with physical objects or 3D models. Second, in physical meetings, participants can easily observe and interact with tangible artifacts, which facilitates creative exploration and idea generation processes [4]. However, in remote meetings, this level of interaction is often unavailable or limited.
Several methods have attempted to address these challenges, such as preparing 3D models in advance via CAD or 3D scanning [34], or employing specialized real-time 3D capture setups [62, 78]. While effective, these approaches have limitations: pre-made 3D assets do not support spontaneous sharing, and specialized setups are often impractical for general use. Recent advances in AI-driven text-to-3D and image-to-3D technologies [75] present an accessible and intuitive alternative, lowering barriers to 3D content creation and enabling broader participation in collaborative efforts.
In this paper, we aim to investigate how on-the-fly transformations between 2D content and 3D representations can support object-centric ideation and spatial sense-making in collaborative XR meetings, and how the design of such a system can enhance user experiences by integrating interactive image-to-3D workflows across various XR meeting context.
We designed and implemented Thing2Reality, an XR meeting platform that enables fluid interactions with 2D and 3D artifacts. Thing2Reality allows users to segment content from any source (video streams, shared digital screens) within the XR environment (Figure 1a), generate multi-view renderings (Figure 1b) with conditioned multi-view diffusion models, and transform them into shared 3D Objects with Gaussian splatting for interactive manipulation (Figure 1c). We conducted two user studies: a preliminary study (N=12) analyzing the usability of using digital and physical sources for 3D object creation, and an exploratory study (N=18) exploring how the co-existence and transformation between 2D and 3D formats shape collaboration patterns across tasks such as avatar decoration, spatial layout, and open-ended design brainstorming. Our findings suggest that 3D objects facilitate intuitive explanations, detailed visualization, and interactive collaboration, whereas 2D representations are more often used for final pitch deliverables, suggesting a context-dependent trade-off between the two formats based on task objectives.
In summary, we contribute: Thing2Reality, an XR meeting platform that provides onthe-fly 3D objects generation by enabling users to present and share spontaneous thoughts, and augment their shared digital and physical artifacts with remote collaborators. Findings from a usability study (𝑁 =12) examining the digital and physical inputs of Thing2Reality. Findings from an exploratory user study (𝑁 =18) evaluating the use of Thing2Reality (both 2D-to-3D and 3D-to-2D workflow) for discussing and presenting both 2D and 3D objects in XR meetings.
(Conclusion) We believe that XR communication has tremendous promise for co-presence and for bridging distances between humans, yet much focus today is on realistic rendering of avatars and remote participants. However, as XR systems mature and become increasingly realistic, it will also become increasingly important to support a similar level of spontaneity with objects and artifacts, as what people experience in real environments. In this paper, we presented Thing2Reality, an XR communication system that allows users to instantly materialize ideas or physical objects and share them as interactive conditioned multiview renderings or 3D Gaussians for realistic 3D rendering. Thing2Reality is one of many necessary building blocks towards increasingly realistic co-presence in XR, and we hope that our work will inspire continued work towards augmented communication in both physical and mirrored world [9].
XR 원격 회의에서 2D 공유 방식의 trade-offs
2D 공유의 명확한 장점: 웹 브라우저 검색 이미지, 디지털 문서, 그리고 물리적인 카메라 피드 등을 활용하여 회의 중에 아이디어를 가장 빠르고 직관적으로 원격 공간에 가져와 띄울 수 있다.
공간 제어력 부족의 한계: 메타버스나 XR 같은 몰입형 3차원 환경에서도 막상 공유된 콘텐츠는 얇은 2D 평면 카드에 불과합니다. 이로 인해 제품 디자인, 가구 배치, 건축 브레인스토밍처럼 3차원 공간적 참조(spatial referencing)나 각도별 정밀 시각화가 필수적인 작업에서는, 의사소통의 심각한 병목 현상이 발생한다.
기존 3D 모델링 생성 방식의 한계
사전 제작 방식(CAD 및 3D 스캔): 정밀한 3D assets을 얻을 수 있으나, 회의 전에 미리 준비해야 하므로 회의 도중 갑자기 떠오른 아이디어를 즉석에서(spontaneous) 공유하고 검증하는 원격 워크플로우를 지원하지 못한다.
실시간 3D 캡처 장비: 다각도 카메라 리그 세트나 고가의 특수 RGB-D 센서 장비가 필수적이어서, 일반적인 사용자들의 일상적인 원격 회의 환경에 도입하기에는 진입 장벽이 너무 높고 실용성이 떨어진다.
Thing2Reality
비디오 스트림이나 웹 화면 같은 단 한 장의 2D 소스 이미지에서 사용자가 원하는 물체만 톡 잘라내어(segment), AI 기반으로 다각도 뷰를 생성하고 이를 즉석에서 조작할 수 있는 3D 가상 물체(3D Gaussian)로 구현해 내는 실시간 XR 협업 플랫폼이다.
실시간 2D-to-3D 워크플로우: 웹서핑 중인 이미지나 ZED Mini 카메라 피드로 비춘 실제 사물 위에서 VR 컨트롤러를 활용해 연속적인 스트로크(marking)를 그리면, MobileSAM 기반으로 객체를 실시간 분리(segmentation)하여 3D 모델로 뚝딱 변환한다.
3D Gaussian Splatting 기술 융합: 텍스트 입력형 생성 기술과 달리, 대형 재구성 모델(LGM) 및 다각도 확산 모델을 통해 원본 2D 이미지의 고유한 형태와 질감을 현실감 있게(photo-realistic) 보존하면서 가벼운 연산으로 렌더링한다.
상호작용 가능한 협업 공간(sphere proxy): 변환된 3D 물체 주위에 반투명한 구체 충돌체(sphere proxy)가 생성되어, 사용자는 이를 손이나 컨트롤러로 잡고, 크기를 키우고, 원격 동료와 함께 이리저리 돌려보며 물리적 배치나 디자인을 자유롭게 논의할 수 있다.
연구결과 및 의의
커뮤니케이션 효율 극대화(N=12, N=18): 사용자가 직접 손으로 3D 물체를 조작하며 설명할 수 있게 되면서, 동료에게 복잡한 공간적 개념을 이해시키는 인지적 노력이 크게 줄어들고 디테일한 시각화 피드백 성능이 대폭 향상되었다.
2D와 3D의 맥락별 상호 보완성 발견: 아이디어를 자유롭게 발산하고 조율하는 초기 브레인스토밍 단계에서는 3D 물체 조작이 압도적으로 유리했으나, 최종 결과물을 요약/발표하는 정리 단계에서는 오히려 깔끔하게 정돈된 2D 스냅샷 뷰포트를 화이트보드에 정렬하는 형태가 선호되는 등 명확한 역할 분담을 확인했다.
XR 원격 실재감(Copresence)의 확장: 기존 XR 연구가 인간 아바타를 얼마나 실감 나게 만드느냐에 주로 치중했다면, 본 연구는 회의실 안의 artifacts 또한 인간만큼 즉각적이고 사실적으로 공유되어야 비로소 완성도 높은 원격 협업이 가능하다는 새로운 방향성을 제시한다.
장점
극도의 입력 편의성: 여러 번 클릭할 필요 없이 컨트롤러 트리거를 쥐고 긋는 continuous marking 액션만으로 복잡한 레이아웃에서 원하는 객체를 정확하게 추출한다.
2D Pie Menu: 3D 생성 전, 컨트롤러에 부착된 2D 파이 메뉴를 통해 4개 직교 뷰(Front, Side, Back)와 360도 비디오 미리보기를 프라이빗하게 검토할 수 있어 공유 공간을 어지럽히지 않는다.
양방향 미디어 변환(3D-to-2D): 생성된 3D 가우시안 객체를 원하는 각도에서 스냅샷으로 캡처해 가상 화이트보드에 2D 스티커처럼 붙일 수 있어 가하학적 탐색과 문서화가 동시에 가능하다.
한계점
정밀 시각화의 한계(blurriness): 생성 속도와 conversational flow를 확보하기 위해 경량 파이프라인을 채택하여, 섬세한 텍스처 패턴(예, 옷의 스트라이프 무늬)이나 의료 진단처럼 고정밀도가 요구되는 최종 의사결정 단계에는 3D 모델이 다소 흐릿하게 보일 수 있다.
초기 크기(scale) 예측의 불확실성: 단 한 장의 2D 이미지 소스에 의존하여 3D 객체를 생성하기 때문에, 참조할 물리적 카피가 없는 디지털 이미지의 경우 초기 생성 시 실제 사물 크기와 다르게 렌더링되는 부피 불일치 문제가 발생한다.
향후과제
텍스처 고도화 및 PBR 융합: 렌더링 성능을 저하시키지 않는 선에서 입력 데이터 밀도를 높이고, 물리 기반 렌더링(PBR) 기술을 통합하여 가상 사물의 표면 재질감과 조명 반사 효과를 한 차원 더 끌어올릴 계획이다.
추상적 개념의 시각화 및 suggestion 시스템: 물리적 실체가 없는 추상적인 아이디어나 개념도 메타포적, 상징적 시각 기법을 적용해 3D assets으로 구체화할 수 있도록 컴퓨터 비전 기반의 문맥 맞춤형 제안 알고리즘을 확장할 예정이다.
Adil Rahman, Rifat Rahman Khan, Jonggi Hong, Stephanie Valencia, Seongkook Heo
CustomSight: Enhancing LLM-Powered Visual Assistance for Blind Individuals using Goal-Directed Dynamic Filters
(Abstract) LLM-powered assistive technologies (ATs) have enabled blind and visually impaired (BVI) users to query personalized, goal-oriented information about their visual environment. However, the accuracy of system responses depends heavily on well-framed, queryrelevant images, which can be difficult for BVI users to capture. We present CustomSight, an LLM-powered AT that helps BVI users effectively query visual information by providing task-aware, real-time guidance to frame the camera and automatically capture images when relevant content is in view. When a user issues a query, CustomSight generates a Dynamic Filter—a custom pipeline that encodes logic tied to the user’s intent, monitors the live feed, and triggers context-aware feedback and image capture. The captured image is sent to the LLM to fetch accurate visual information.
(Introduction) Blind and visually impaired (BVI) individuals frequently rely on smartphone-based ATs to independently access visual information in daily life. Several computer vision (CV) models—such as text recognition, object detection, and scene captioning—have been integrated into popular ATs (e.g., Seeing AI [9], Tap Tap See [5]) to help users explore their surroundings and identify objects [6, 7]. However, despite widespread adoption, these solutions typically provide context-agnostic responses, forcing BVI users to creatively “hack” around limitations or cope with significant cognitive load to find relevant information [7].
Recently, LLM-powered ATs (e.g., Be My AI [2]) have introduced natural language querying, allowing BVI users to ask targeted visual questions conversationally for diverse use cases [1, 8, 10]. However, these systems depend critically on capturing relevant, well-framed images to produce useful responses—an inherently difficult task without sight [3]. For instance, if a user wants to know a food item’s expiry date, the image must clearly show it. Given the asynchronous nature of LLM responses [4], capturing a usable image may take multiple attempts, reducing efficiency and limiting practicality.
To address this, we designed CustomSight, an assistive system that creates custom pipelines to automatically capture images relevant to a user’s goal and query the LLM, helping BVI individuals access goal-oriented visual information effectively. CustomSight retains a chat-based interface similar to existing LLM-powered apps like Be My AI. However, instead of simply facilitating question answering, CustomSight first checks whether the submitted image contains enough information to meaningfully answer the query. If not, it assesses whether available on-device sensing and feedback modules can help the user better aim the camera and trigger capture when relevant content is likely in frame. It then generates a Dynamic Filter—a tailored pipeline that processes the live feed using goal-specific logic, provides context-aware audio cues to assist framing, and automatically captures an image once the user’s goal criteria are met, passing it to the LLM for a task-specific response (Fig 2a). For example, if a user looks for expiry date, CustomSight may generate a Dynamic Filter that monitors text recognition output for relevant keywords like “expiry date”, “use by”, and “best before”, provides continuous sonification and speech feedback, and captures when relevant content is detected and steady (Fig 2b).
(Conclusion) We presented the design of CustomSight, an LLM-powered visual assistive tool that helps blind users efficiently capture task-relevant images through real-time, goal-directed guidance. Our preliminary study highlighted its potential to improve the efficiency of visual information access for BVI users. Future work includes co-design workshops to explore new sensing and feedback modules (e.g., depth, haptics), supporting more expressive framing guidance, and real-world deployments to assess everyday utility and impact.
기존 시각 보조 기술(AT)의 변화와 한계
컴퓨터 비전 기반 앱(예, Seeing AI 등): 텍스트 인식(OCR)이나 단순 물체 감지 기능은 제공하지만, 사용자의 구체적인 목적이나 맥락을 고려하지 않은 일방향적이고 구조화되지 않은 정보(context-agnostic)만 나열한다. 이로 인해 시각장애인 사용자가 정작 원하는 정보를 찾으려면 상당한 인지적 부담을 지거나 시스템을 우회하는 편법을 동원해야 한다.
최근 LLM 기반 대화형 앱(예, Be My AI 등): 자연어 질문(VQA, Visual Question Answering)을 통해 사용자 맞춤형 답변을 상세하게 제공할 수 있게 되었으나, 이 시스템들은 질문 목적에 맞게 잘 촬영된 이미지가 전제되어야만 정확한 답변을 줄 수 있다는 단점이 있다.
현실적인 촬영의 어려움: 시력이 없는 상태에서 특정 정보(예, 식품의 유통기한 위치)가 정확히 찍히도록 카메라 앵글을 잡는 것은 매우 어렵다. 게다가 LLM의 답변은 비동기식으로 느리게 오기 때문에, 제대로 된 사진이 찍힐 때까지 수차례 촬영과 대기를 반복해야 하므로 효율성이 크게 떨어진다.
CustomSight
사용자가 자연어로 질문을 던지면 AI가 그 의도를 파악해 맞춤형 카메라 필터(dynamic filter)를 즉석에서 생성하고, 실시간 온디바이스 센싱 및 오디오 피드백을 통해 올바른 촬영을 유도한 뒤 목적에 맞는 화면이 포착되면 자동으로 사진을 캡처하는 하이브리드 시각 보조 시스템이다.
답변 가능성 판별(determine answerability): 사용자가 처음 사진과 질문을 보냈을 때, 현재 사진만으로 답변이 가능한지 LLM이 rubric 기반 프롬프트로 심사한다. 정보가 부족하다고 판단되면 재촬영(retake) 단계로 진입한다.
필터 생성 가능성 평가(determine filter programmability): 스마트폰의 온디바이스 센서 모듈(Apple VisionKit 텍스트 인식, YOLOv8 물체 감지 등)과 오디오 피드백 모듈을 조합해 촬영을 도울 수 있는 가이드 로직을 짤 수 있는지 LLM이 판단한다.
동적 필터 생성(generate dynamic filter): 검증을 통과하면 LLM이 전용 도메인 특화 언어(DSL, Domain-Specific Language)를 사용하여 사용자 목적에 맞춘 감지 알고리즘을 실시간으로 설계한다, e.g., "유통기한 언제야?"라고 물으면, OCR 모듈이 'best before', 'use by', 'exp' 같은 단어나 날짜 정규식 패턴을 감지하도록 필터를 구성한다.
필터 실행 및 자동 캡처(execute filter): 사용자가 카메라를 움직이면 시스템이 실시간 비디오 프레임을 모니터링한다. 원하는 정보가 화면에 들어오고 손떨림 없이 안정되는 순간(stable), 오디오 신호(tone 모듈 및 TTS)로 가이드를 주며 최적의 한 컷을 알아서 자동 캡처(auto-capture)하여 LLM에 전송한다.
연구결과 및 의의
상호작용성 및 효율성 향상: 두 명의 시각장애인 참가자(전문 AT 스페셜리스트 및 중도 실명자)를 대상으로 4가지 일상 작업(요리법 찾기, 통조림 유통기한 확인, 오렌지 찾기, 메뉴판 가격 확인)을 실험한 결과, 기존 대화형 앱보다 훨씬 더 적은 단계만으로 원하는 정보를 정확하고 효율적으로 획득했다.
시스템에 대한 신뢰도(trust) 상승: 사용자가 언제 셔터를 누를지 불안해할 필요 없이, 시스템이 적절한 프레임을 스스로 판단하고 확신을 가지며 자동으로 찍어준다는 점이 사용자에게 심리적 안정감과 높은 신뢰를 제공했습니다.
하이브리드 패러다임 제시: 본 연구는 실시간 온디바이스 컴퓨터 비전(CV/ML)의 속도감과 거대 언어 모델(LLM)의 고차원적 문맥 이해력을 결합하여, 두 기술의 한계를 동시에 극복하는 차세대 접근 방식을 제시했다는 점에서 학술적 의의가 큽니다.
장점
목적 지향형 가이딩: 사용자 질문에 따라 그때그때 DSL 코드가 생성되므로, 고정된 기능만 제공하는 일반 시각 앱과 달리 무한한 일상 시나리오에 유연하게 대응합니다.
실시간 on-device 처리: React Native 기반 앱과 Flask/Socket.IO 백엔드를 연동하여 비디오 피드를 끊김 없이 처리하고 실시간 오디오 피드백을 전달합니다.
한계점
가장자리 조기 캡처 현상(early trigger): 현재 시스템은 키워드 패턴의 유무(binary inclusion) 위주로 판단하기 때문에, 'cooking instructions'라는 글자가 화면 구석 가장자리에 살짝만 걸쳐도 너무 빨리 캡처를 해버려 정작 알맹이 내용이 사진에서 잘리는 한계가 있습니다.
향후과제
미세 제어 피드백 고도화: 타깃 정보가 화면 정중앙(center)에 안정적으로 위치할 수 있도록 유도하는 정밀한 오디오 방향 가이드(sonification) 기술이나 스마트폰 진동(haptics) 피드백 알고리즘을 추가할 예정이다.
멀티모달 센서 및 홈 IoT 확장: depth 카메라 센서를 융합해 보행 중 충돌 방지 기능을 구현하거나, 스마트 홈 카메라와 연동하여 현관 앞 택배 물품을 감지하는 등 일상 밀착형 모듈을 확장하고 실제 환경에서 장기 배포 연구를 진행할 계획이다.
Hyeongjin Kim, Erzhen Hu, Seongkook Heo
SpaceShare: Leveraging Multimodal Context for Fluid Sharing of Spaces in Video Meetings
(Abstract) In video meetings, people not only talk but also share objects and their environments. However, conventional video calls offer limited support for spatial sharing, typically relying on a live video feed. We present SpaceShare, a system that integrates real-time 3D space reconstruction into video meetings and leverages multimodal context to fluidly support shared spatial understanding. The reconstructed 3D environment enables users to independently explore the space, while avatar visualization and shared views convey each participant’s location and viewpoints. SpaceShare also stores conversation content and contextual metadata, such as where the conversation took place. This allows users to retrieve spatial features using both physical attributes and conversational context.
(Introduction) Video meetings are now widely used across many areas. Beyond simple conversation, people increasingly share physical environments through video meetings. For example, they take virtual guided tours [6], view real estate remotely [4], and collaborate on spatial projects [1]. While modern mobile devices can capture scenes in high fidelity, effectively communicating spatial information remains challenging. The video feed is momentary and shows only what is currently in view. Referencing parts of the space is difficult and inefficient, especially when the location is out of view or far from the users. As the shared space becomes larger, problems become more pronounced.
To effectively support space sharing in video meetings, prior work has identified several key aspects: enabling view independence, fostering spatial awareness, and supporting referencing of past scenes. View independence allows users to explore remote environments freely, improving task efficiency and confidence [15], though solutions like 360° video remain limited by fixed viewpoints [1, 16, 17]. Real-time 3D reconstruction using Simultaneous localization and mapping (SLAM) methods [14] or neural techniques like NeRF and Gaussian Splatting [7, 12] may address this by allowing interactive, live exploration. For spatial awareness, systems have used avatars, gaze, and gestures to convey partner context [2, 10], but these become less effective in large spaces. Finally, referencing previously visited scenes remains challenging. Landmarks and minimaps help [18], but are often insufficient without integration of conversational context [9].
To address these challenges, we developed SpaceShare, a system that integrates real-time 3D space reconstruction with multimodal contextual features to enhance shared spatial understanding in video meetings. Using SLAM, SpaceShare reconstructs the environment on the fly, enabling both local and remote users to independently explore the shared space. The system visualizes each user’s position and viewpoint through virtual avatars and ray-based pointers to facilitate view communication. As users converse, SpaceShare captures not only the 3D environment but also multimodal contextual data, including user locations, and conversation content. It generates panoramic images by stitching keyframes, labels objects in the scene, and stores these representations alongside the conversation history. This enables rich, context-based retrieval of prior scenes. For instance, instead of navigating manually or issuing a generic search like “chair,” a user could search for “the chair that reminded us of our childhood memories,” leveraging the conversational context to find a specific moment or location.
Our key contribution is the introduction of a novel approach that incorporates multimodal contextual summaries to support spatial sharing and retrieval in remote meetings.
(Conclusion) While our preliminary study demonstrated the potential of SpaceShare for enhancing spatial recall and collaboration in remote meetings, the SUS scores indicate that the overall interface and interaction design still require improvement. Future work will include iterative design refinements to improve usability and a more comprehensive user study to gain deeper insights into the effects of the space summarization and retrieval features.
기존 영상 공유 방식의 한계
시각적 단절(momentary video feed): 일반 화상 회의는 카메라가 비추는 순간의 2D 화면만 제한적으로 보여주므로, 화면 밖의 주변 공간을 설명하거나 멀리 떨어진 공간의 특정 영역을 referencing하기가 극도로 불편하고 비효율적이다.
360° 비디오의 한계(fixed viewpoints): 원격 사용자가 화면을 돌려볼 수는 있지만, 카메라가 놓인 고정된 물리적 위치(fixed perspective)에서만 바라봐야 하므로 자유로운 공간 탐색(view independence)이 불가능하다.
과거 맥락 상실(loss of context): 이전에 방문했거나 나눴던 대화 내용이 공간 정보와 유기적으로 결합되지 않는다, e.g., 회의중에 "아까 대화했던 거기 어디였지?"라면, 이전 장면의 물리적 위치를 다시 추적하기가 매우 난해하다.
SpaceShare
현장(local) 사용자가 태블릿이나 카메라로 주변을 비추면 실시간으로 3D 공간을 복원하고, 참가자들의 대화 내용(transcript)과 3D 위치 좌표를 결합하여 "그때 거기서 나눈 대화"의 맥락으로 특정 장소를 역추적해내는 혁신적인 화상 회의 플랫폼이다.
실시간 3D 공간 복원(SLAM 기반): Spectacular AI Visual-Inertial SLAM SDK를 활용해 depth 카메라 센서 데이터로부터 실시간 3D 메쉬와 포인트 클라우드를 추출한다. 원격 사용자도 가상 아바타와 ray-based pointers를 통해 방송 화면에 갇히지 않고 독립적으로 3D 공간을 돌아다닐 수 있다.
멀티모달 공간 요약(multimodal space summarization): 카메라 프레임의 시각적 차이를 감지해 핵심 장면을 추출한 뒤, OpenCV로 파노라마 이미지를 병합한다. 여기에 YOLO-World로 사물을 자동 라벨링하고 OpenAI GPT-4V로 텍스트 설명을 생성하는 동시에, OpenAI Speech-to-Text API로 대화 내용을 타임스탬프와 결합해 하나의 메모리 데이터베이스로 구축한다.
맥락 기반 공간 검색(context-based space retrieval): 단순히 "의자" 같은 물리적 단어를 검색하는 대신, OpenAI GPT-4o를 통해 "우리 아까 어릴 적 기억 얘기하면서 장난쳤던 그 의자"처럼 대화 속 에피소드 맥락을 자연어로 입력하면 시스템이 정확한 3D 위치 좌표와 당시의 파노라마 사진을 즉각 찾아낸다.
연구 결과 및 의의
공간 회상 능력 향상(exploratory study, N=16): 16명의 참가자를 대상으로 과거에 대화 나눴던 특정 예술품 5개를 다시 찾아내는 미션을 수행한 결과, 맥락 기반 공간 검색 기능을 사용했을 때(평균 4.44개 성공)가 해당 기능 없이 수동으로 찾았을 때(평균 3.62개 성공)보다 훨씬 더 많고 정확하게 예술품의 위치를 도출해 냈다.
UI/UX 개선의 필요성 발견: 기능의 유용성과 효율성은 실험을 통해 명확히 확인되었으나, 사용자 편의성 지표인 시스템 사용성 평가(SUS 점수, System Usability Scale)는 검색 기능을 썼을 때 55.47점, 쓰지 않았을 때 53.91점으로 모두 50점대(marginal level)를 기록했다.
향후 과제(인터페이스 최적화): 다량의 멀티모달 정보(3D 공간 데이터, 아바타 포인터, 대화 텍스트, 팝업 이미지 등)가 한 번에 쏟아질 때 사용자가 느끼는 시각적 피로감과 복잡성을 줄이기 위해, 향후 인터페이스 디자인 및 상호작용 레이아웃을 전면 보완할 계획이다.
Zackary T. Landsman, Matthew Clark, Seongkook Heo, Afsaneh Doryab, Gregory J. Gerling
Evaluating the Physics and Repeatability of Human Brushers in Delivering Affective Touch
(Abstract) Research in affective touch often utilizes a pleasant stroking paradigm, with touch typically delivered at velocities between 0.3–30 cm/s and forces about 0.4 N. These values are derived from perceptual and physiological responses of touch receivers rather than natural behaviors of touchers. Herein, we observe untrained touchers in delivering pleasant touch as gentle strokes to a receiver’s forearm through high-resolution force and position measurement using an instrumented brush. Twenty participants delivered about eleven strokes in each of five trials, yielding data on stroke velocity, force, duration, and length. The cohort deployed forces (0.37 N ± 0.24, 2 SD) near 0.4 N, but stroking velocities (13.7 cm/s ± 8.8, 2 SD) slightly higher than typically considered “optimal” (1–10 cm/s). We observed no correlation between stroke force and velocity, which led us to consider these factors jointly in characterizing an individual’s brushing strategy. Moreover, while the cohort of participants exhibited a compact range of forces and velocities, individuals tended to occupy only subsets of this range with high repeatability across trials. Altogether, the findings suggest a need to further evaluate the velocity range between 10–30 cm/s and to jointly consider force, velocity, and consistency in characterizing an individual’s brushing strategy.
(Introduction) Affective touch typically refers to slow moving, low-force mechanical stimuli, exemplified by gestures such as a gentle caress or comforting stroke that carry emotional and social meaning, extending beyond the mere detection of physical properties of stimuli [1], [2], [3]. Affective touch often, but not always, overlaps with social touch, which occurs in interpersonal contexts and is influenced by relational factors including familiarity, intimacy, and cultural norms [4], [5]. Research into touch receivers’ perceptions of affective touch has sought to determine what makes a touch “pleasant” and has considered inherent traits between participants, including relationships [4], [6], [7], [8], the touch receiver’s sex [9], age [10], [11], culture [5], [12], skin site [13], [14], and touch delivery via person or robot [13], [15]. In an effort to understand what makes affective touch pleasant, researchers have hypothesized that alignment between the intent of touch delivery and its interpretation by a touch recipient plays a large role [2]. Thus, to understand how the intent of touch delivery is communicated, works have evaluated how cues at physical contact—such as force, velocity, temperature, contact area, duration, and frequency [16], [17], [18], [19]—influence social and emotional perception [20] and evoke neural responses [21], [22]. Notably, even slow, gentle stroking delivered by a stranger has been shown to elicit predominantly positive affect, suggesting a potential universal language of touch that operates independently of contextual or relational factors traditionally considered essential to affective touch [23].
Pleasant touch, the perception of received touch as positive affect, sits at the intersection of affective and social touch. Studies have shown that pleasant touch can enhance physiological regulation, which contributes to stress reduction, interpersonal bonding, and social wellbeing [24]. The delivery of pleasant touch has received particular attention, as it is thought to engage a specialized class of unmyelinated low-threshold mechanoreceptors in hairy skin, C-tactile (CT) afferents, that respond optimally to gentle, caress-like stroking [3], [19]. A common experimental paradigm to research factors contributing to pleasant touch involves stroking the skin with a soft brush [13], [14], [15], [19], [20], [21], [25], [26], [27], [28], [29], [30], [31], [32], [33], [34]. As a substitute to skin-to-skin stroking, the use of a brush can remove variability in skin softness, hand size, and temperature. The brush also more readily affords instrumented sensing of force, position, and velocity, which are challenging to measure in skin-to-skin touch [15], [35]. Although stroking another person with a brush may not entirely reflect the way people touch one another in natural contexts, this controlled approach has been invaluable in studying pleasant touch.
One of the most influential findings from this line of research has been the identification of an inverted U-shaped relationship between stroking velocities and pleasantness ratings, which mirrors the firing profile of CT afferents, with peak responses in the range of ~1 – 10 cm/s and forces in the range of 0.2 – 0.4 N [19]. The parameters of force and velocity have become a de facto standard for delivering pleasant touch, with an “optimal range” of 1–10 cm/s at about 0.4 N.
Force and velocity have been emphasized because they are both salient and intuitive to receivers. Touch can be readily described as “fast” versus “slow,” or “hard” versus “soft.” For the touch deliverer, they also represent straightforward adjustments, i.e., to change velocity, one moves faster or slower; to change force, one presses harder or softer. This bidirectional clarity has contributed to their prominence in both perceptual and mechanistic studies of affective touch. Accordingly, the present study also focuses on these features. Yet critically, the six original experimental velocities (0.1, 0.3, 1, 3, 10, 30 cm/s) were selected arbitrarily to reflect “slow,” “average,” and “fast” stroking with a brush, rather than being empirically derived from naturalistic touch behavior [19]. Over time, these same six velocities have become the default in most stroking studies [18], [25], [27], [28], [31], with an emphasis on the “optimal range” of 1 – 10 cm/s. That said, velocities outside this range have not necessarily been deemed unpleasant, just less pleasant comparatively. Relying on these six velocities may foster a somewhat incomplete picture of how pleasant touch is naturally produced and experienced. Because these values originated from early experimental design choices rather than observations of real interactions, they may not capture the full range of motions people chose to deliver as pleasant.
In addition to the possibility of not fully capturing the preferred delivery of pleasant touch, these six velocities may mischaracterize our articulation of an “optimal range”, given notable limitations recently demonstrated at the level of individual participants. In particular, a review of five stroking studies found that the characteristic U-shaped relationship between velocity and pleasantness in the “optimal range” held for only 40% of individuals, revealing the masking effect of aggregate statistics [26]. This raises questions about which velocity ranges should guide experimental paradigms, given that some studies report positive pleasantness ratings even at 50 cm/s [36]. Advancing studies of touch delivery requires complementing perceptual research with observations of how untrained individuals naturally produce stroking gestures. Convergence between the kinematics of natural stroking patterns and pleasantness in an “optimal range” would provide evidence of receiver–deliverer attunement, a defining characteristic of affective touch.
Prior attempts to observe natural stroking behaviors have produced mixed results. For instance, some studies observing the velocity of untrained stroke delivery report velocities exceeding the CT-optimal range (e.g., 13.9 ± 4.0 cm/s, [37] and 3.9 – 27.7 cm/s [38]), whereas others more closely align [39]. Indeed, systematic observation of stroking-based delivery is necessary, not only to assess whether its dynamics resemble or diverge from skin-to-skin stroking, but also to evaluate whether the six commonly employed experimental velocities are naturally preferred by touch deliverers.
A related issue concerns the lack of standardization in brush-based stroking delivery paradigms. Existing studies differ in several facets related to brush type, whether strokes are delivered by humans [8], [15], [20], [21], [29], [32], [33], [34] or robots [13], [14], [19], [25], [27], [28], [32], how onset and offset of skin contact are specified, and how velocity is calculated. In many cases, human experimenters are asked to approximate stroking velocity with the aid of a metronome [33], [34], or a visual cue [29], and to practice force control on a scale [15]. While each method offers a degree of calibration, the precision and consistency of the resulting strokes have not been empirically validated. Without such validation, it remains unclear to what extent the delivery of experimental stroking is consistent and reproducible. Direct measurement of the physics of stroke delivery is essential to ground laboratory approaches in objective, naturalistic observation, while also offering a framework for experimental validation of stroking delivery.
The present study addresses this gap by quantifying the force and velocity of pleasant stroking as delivered by untrained individuals with a brush. Specifically, we examine these parameters at both group and individual levels, compare them against canonical ranges, and evaluate individual consistency across repeated strokes. By capturing how people naturally apply brush strokes within a controlled setup, this study aims to provide an observational foundation for naturalistically valid, yet reproducible, models of pleasant touch delivery.
(Conclusion) This study addresses a need to describe the characteristics of untrained human brushers in delivering affective touch with a soft brush. Through direct observation in the delivery of force velocity, brushstroke length, and duration, we examined characteristics of the aggregate population and individual brushers. The observed force range aligns with that used in prior stroking studies, while the velocity range is slightly higher than the “optimal range” of 1 – 10 cm/s. This result suggests that future stroking studies may need to evaluate velocities at a higher resolution between 10 – 30 cm/s. Within brushers, we observed a high level of consistency in their deployment of force and velocity, which suggests that individuals employ distinctive brushing strategies.
Observations of higher brushstroke velocities
The cohort of 20 participants deployed stroke velocity with a mean of 13.38 cm/s and range of 4.87 – 22.70 cm/s, which is somewhat higher than the typically considered “optimal range” of 1 – 10 cm/s [14], [19], [25], [27], [32]. Likewise, other recent studies focused upon skin-to-skin contact with the hand have also reported higher ranges of velocity [37], [38]. For example, one study observing gentle stroking differences based on a receiver’s relationship to the touch deliverer reported a velocity range almost identical to that identified herein, 3.9 – 27.7 cm/s [38]. Likewise, a mean velocity of 13.9 cm/s was observed between mothers and their 1 – 12 month old infants [37]. It is important to note that most of this prior work evaluated the velocity of stroking in skin-to-skin touch, with comparatively little observation of velocity in brush-delivered touch. Despite the differences in delivery method, the range of velocities observed resemble one another [37], [38].
That said, with the agreement in velocities exceeding the “optimal range” of 1–10 cm/s, a finer-grained investigation of pleasantness at higher velocities (10–30 cm/s) is warranted. Notably, in the present study, the highest mean velocity recorded by an individual brusher was 20.33 cm/s, which was still rated as pleasant. This finding aligns with the idea that the range of 1 – 10 cm/s represents a subset, rather than an exclusive, range of pleasantness. A study utilizing brushing stimuli similarly found that stroking was rated as pleasant even at 50 cm/s [36]. Furthermore, the apparent “U-shaped” relationship between pleasantness and velocity may, in part, reflect averaging across individuals, as suggested by a recent review of five stroking paradigm studies in which only 40% of participants exhibited the canonical U-shaped pattern [26]. Thus, a focus on brush velocities in the “optimal range” of 1–10 cm/s may represent the recipient’s perspective, whereas incorporating naturally observed patterns of deliverers may enhance the ecological realism of affective touch paradigms.
Notably, in the present study, the highest mean velocity recorded by an individual brusher was 20.33 cm/s, which was still rated as pleasant. This finding aligns with the idea that the range of 1 – 10 cm/s represents a subset, rather than an exclusive, range of pleasantness. A study utilizing brushing stimuli similarly found that stroking was rated as pleasant even at 50 cm/s [36]. Furthermore, the apparent “U-shaped” relationship between pleasantness and velocity may, in part, reflect averaging across individuals, as suggested by a recent review of five stroking paradigm studies in which only 40% of participants exhibited the canonical U-shaped pattern [26]. Thus, a focus on brush velocities in the “optimal range” of 1–10 cm/s may represent the recipient’s perspective, whereas incorporating naturally observed patterns of deliverers may enhance the ecological realism of affective touch paradigms.
Observation of brushstroke forces confirm current practice
We found that participants applied force magnitudes of 0.37 ± 0.24 N, consistent with typical ranges of 0.2 – 0.4 N [14], [18], [19], [28], [30]. We note that we calculate force magnitude as an aggregate of forces along X, Y, and Z axes. In contrast, most prior studies have derived force from the normal force calibration of a rotary tactile simulator [14], [19], [25], [27], [32], i.e., a brush attached to a single motor to produce a sweeping motion. Such normal force corresponds to Z-axis force of the instrumented brush used herein. Since our experiment accounts for an aggregate of forces along the X, Y, and Z axes, it is reasonable that our reported force range is slightly higher, as it also includes lateral forces (Fig. 1C).
Moreover, the alignment of our force measurements and typical ranges may be attributed, in part, to the properties of the brush bristles. Similar to von Frey monofilaments, brush bristles act as a force-limiting mechanism, preventing excessive force application beyond a threshold [43]. A study examining the perception of brushing from various brushes, found that different brush types (goat hair, horse hair, plastic bristles) deliver varying force values, even when stroked in a similar manner [15]. This suggests brush stiffness naturally constrains force application, contributing to experimental consistency, offering a simple way to modulate force delivery.
Human Brusher Repeatability and Robotic Delivery
Within the delivery strategies of individuals, brushers demonstrated repeatable stroke delivery across trials – as indicated by low coefficients of variation, non-significant results in Levene’s tests, and high ICC values for both force and velocity – without formal training. While the degree of precision varies between individuals, as observable in the relative variability in their cluster sizes, each participant’s variability was characteristic and internally consistent. For example, a highly precise brusher (Fig. 6: small cluster, Participant 4) and a less precise brusher (Fig. 6: large cluster, Participant 1) each could readily replicate their unique cluster sizes between their 5 trials.
Moreover, in attempt to regulate the velocity and force of human delivered stroking, prior studies have used metronomes [33], [34] or moving visual bars [29] and pre-training with force-calibrated scales [15]. Although we did not utilize or compare the precision of strokes with or without such aids, the results herein demonstrate that untrained participants are nevertheless consistent in their stroking delivery. Further, our study neither evaluated trained participants, nor their ability to deliver accurate force and/or velocity in accordance with a control condition. To address such questions, future studies might incorporate real-time measurement of stroking velocity and force to verify that commanded delivery parameters correspond with actual performance.
Beyond pre-study training and visual guidance to standardize touch delivery of human touch deliverers, rotary tactile simulators [13], [14], [19], [25], [27], [28], [32] and other robotic systems [31] have sought to enable repeatable touch delivery. As with human brushing, robotic systems are not immune to delivery errors, and their performance has rarely been directly compared with human-delivered stroking. While many rotary tactile stimulators record applied force and velocity, their sweeping actuation motion may introduce discrepancies between the commanded and actual dynamics and lack resemblance to human-delivered brushing. A recent study redesigned a robotic apparatus to incorporate a cord-driven mechanism to more closely replicate the natural trajectory of human motion [31]. This sort of systematic evaluation of robotic performance may reveal accuracy in reproducing target velocity and force profiles and approximating human stroking. In some cases, robotic touch may be overly consistent, or too “robotic.” The introduction of controlled variability may help robotic systems better emulate the natural dynamics of human touch in experimental contexts.
Gaussian Mixture Models for Touch Delivery Characterization
Within the delivery strategies of individuals, brushers demonstrated repeatable stroke delivery across trials – as indicated by low coefficients of variation, non-significant results in Levene’s tests, The lack of correlation between delivered force and velocity in pleasant brushing delivery was unexpected and, to our knowledge, has not been previously reported. Given their independence, we developed a two-dimensional clustering model to represent individualized brushing profiles within a force-velocity space (Figs. 5 and 6). Compared to traditional univariate methods, this approach offers a more nuanced framework for characterizing brushing strategies, capturing the complexity of individual behaviors across all five trials. Moreover, it provides interpretable visual outputs that facilitate direct comparisons between individuals.
To contextualize our approach, we drew inspiration from other multi-dimensional applications of GMMs in behavior classification, such as ambulatory monitoring, and individual path analysis for gesture recognition for telemanipulation [44], [45]. In ambulatory monitoring, GMMs have been used to classify behaviors such as falls using data from a single hip-worn accelerometer. For example, a 2006 study by Allen and colleagues could effectively classify postures and movements, e.g. sitting, standing, walking, standing-to-lying, etc. The study found that time-based features improved accuracy and reduced computational demand compared to frequency-based measures [44]. However, the resulting model relied on a 25-dimensional feature vector at each sample and a 32-mixture GMM, which limited direct interpretability of individual features. This “black-box” nature constrains transparency and makes it difficult to understand why specific classifications are made. While such models can detect behavioral differences, they often do not explain the underlying mechanisms driving those differences. In contrast, our focus on both populationlevel and individual clustering while limiting complexity allows us to extract meaningful insights about the features themselves, including force and velocity ranges for the participant pool, as well as individual-specific ranges and consistency. For future touch-focused GMM applications, care should be taken to ensure that model decisions are interpretable, and that the contributions of individual features are clearly understood and contextualized in relation to both the population and individual participants.
Importantly, GMMs are a form of soft clustering, making them particularly well-suited for observation discovery for behaviors where multiple solutions are valid. A similar challenge arises in robot-assisted surgery, where complex procedures can be executed in multiple ways. Haptic feedback is often integrated into robotic systems to guide the surgeon along a predefined trajectory or provide interactive assistance. To better understand when and how this feedback should be deployed, Pérez-del-Pulgar et al. applied GMMs to break down a multi-path task, inserting a peg into a hole, into stages, revealing the numerous valid strategies participants can use and identifying patterns that inform stepwise feedback [45]. The resulting GMM encoded surface contact patterns (e.g., up–down, left–right), enabling the system to detect consistent interactions across multiple trials and prioritize cues for haptic guidance. Observation-based experiments such as this and our study benefit from GMMs’ soft clustering, which allows patterns to emerge from complex, high-dimensional data without enforcing rigid classifications. In our touch delivery study, just as in robotic surgery, multiple brushing strategies may be equally effective, corresponding to individual clusters, while commonalities across participants reveal shared tendencies, reflected in our identified cluster range. By leveraging soft clustering, GMMs enable us to capture both individual variability and population-level agreement, revealing the structure of force and velocity patterns across participants. This approach allows meaningful patterns to be extracted from naturalistic behavior, providing insight into how untrained individuals deliver touch, all derived from direct observation rather than imposed experimental constraints.
기존 정서적 촉각(affective touch) 연구의 한계
수신자 중심의 데이터 편향: 기존의 pleasant stroking paradigm(속도 1~10 cm/s, 힘 약 0.4 N)은 터치를 받는 사람(수신자)의 생리적/지각적 반응(CT 신경 섬유 활성화 등)에만 치우쳐 도출된 수치이다.
자연스러운 행위자 맥락 상실: 정작 터치를 제공하는 사람(송신자)이 자연스럽게 행동할 때 어떤 물리적 수치와 제어 역학으로 터치를 수행하는지에 대한 실제 관찰 데이터가 심각하게 부족했다.
임의적인 실험 조건의 고착화: 선행 연구들에서 다루어진 고정 속도 기준들(예, 0.1, 0.3, 1, 3, 10, 30 cm/s)은 초기 실험 설계 당시 인위적으로 설정된 기준일 뿐이며, 이것이 인간이 자연스럽게 선호하여 생산하는 물리적 패턴을 온전히 대변하지 못한다.
단일 변수 분석 및 로봇 통제의 한계: 힘과 속도를 독립된 별개의 변수로만 취급하여 결합된 다차원적 터치 전략을 놓쳤습니다. 또한, 실험용 회전 촉각 자극기(로봇)는 인간 고유의 스트로크 궤적이나 자연스러운 가변성을 모사(emulating)하는 데 한계가 존재했다.
핵심 기능 및 연구 방법론
센서가 내장된 정밀 브러시(instrumented brush) 개발: 6축 로드셀(ATI Nano17)과 전자기 자이로 트래킹 시스템(Flock of Birds)을 3D 프린팅 섀시에 결합하여, 터치 순간의 힘, 토크, 3차원 위치, 속도, 스트로크 길이를 335 Hz의 고해상도로 동기화 및 측정한다.
자연스러운 터치 데이터 수집(N=20): 20명의 훈련받지 않은 참가자가 커튼 뒤에 숨겨진 수신자의 팔뚝에 자신이 생각하기에 '가장 기분 좋은 방식(pleasant touch)'으로 붓질을 하도록 유도했습니다. 참가자별로 5회 반복 시도(trials)를 거쳐 총 1,087개의 유효 스트로크(stroke) 파형을 추출했습니다.
2차원 가우시안 혼합 모델(GMM) 기반 분석: 터치 압력(force)과 속도(velocity) 사이에 유의미한 선형 상관관계가 없음을 통계적으로 확인하고, 이 두 독립 변수를 결합하여 2차원 밀도 공간상에서 개인별 터치 프로필을 소프트 클러스터링(soft clustering) 기법으로 시각화 및 모델링했습니다.
연구 결과
통념보다 빠른 자연스러운 터치 속도: 참가자들의 평균 터치 힘(0.37 N ± 0.24)은 기존 학계의 표준(0.4 N)과 유사했으나, 평균 속도는 13.7 cm/s ± 8.8로 기존 최적 범위(1~10 cm/s)보다 유의미하게 높게 측정됐다. 심지어, 최고 속도 영역인 20.33 cm/s조차 수신자는 여전히 '기분 좋음'으로 평가했다.
개인 고유의 터치 전략 및 높은 반복성(repeatability): 피험자 전체(cohort)의 데이터 분포는 일정한 범위 안에 뭉쳐 있었으나, 개인별로는 그 안에서 자신만의 매우 좁고 고유한 영역(subsets)만을 점유하고 있었다. 또한, 5회의 독립된 실험 전반에 걸쳐 본인 고유의 힘/속도 조합과 정밀도(cluster size)를 유지하는 높은 일관성을 증명했다. (급내상관계수 ICC 값: 속도 0.986, 힘 0.964)
연구 패러다임 전환 제안: 인간이 자연스럽게 행하는 정서적 터치의 생태학적 타당성(ecological validity)을 확보하기 위해, 향후 촉각 연구는 10~30 cm/s 사이의 속도 구간을 더 세밀하게 평가해야 하며, 힘과 속도 및 가변성을 통합된 하나의 개인 브러싱 전략(brushing strategy)으로 다루어야 함을 시사한다.
장점
고해상도 멀티모달 싱크: 6축 힘/토크 센서와 위치 추적 센서를 335Hz 주기로 동기화하여, 미세한 손놀림 속에서 실시간 물리 값의 변화를 왜곡 없이 온전히 포착한다.
GMM 기반 다차원 프로파일링: 단일 변수 통계의 한계를 넘어, 가우시안 혼합 모델(GMM) 클러스터 분석을 통해 행위자의 터치 스타일(예, 힘은 강하지만 느리게, 혹은 힘은 약하지만 빠르게 등)을 다차원 공간에서 시각적/객관적으로 정밀하게 정의한다.
한계점
일방향적 행위 분석: 본 실험은 터치를 제공하는 사람의 물리적 행동양식 규명에 집중되어 있어, 송신자의 스트로크 변화에 따라 터치를 받는 사람(receiver)의 실시간 감정 상태나 생리적 피드백이 어떻게 동적으로 변하는지 양방향(bidirectional) 링크를 완벽히 실시간 매핑하지는 못했다.
도구 및 부위의 제한성: 실험이 브러시라는 특정 매개체와 인체의 팔뚝이라는 제한된 신체 부위만을 대상으로 진행되었기 때문에, 실제 손가락 지문을 쓰거나 다른 신체 부위를 터치할 때의 역학 관계까지 100% 일반화하기에는 변수가 존재한다.
향후과제
피부 간(skin-to-skin) 다이내믹스 측정 고도화: 브러시 도구를 넘어, 착용형 유연 센서(flexible sensor skin)나 비접촉식 고정밀 광학 추적 장치를 결합하여 도구 없이 인간 대 인간의 순수 피부 간 정서적 터치 역학을 원시 신호 레벨에서 정밀 분석할 계획이다.
사회적/관계적 컨텍스트 결합: 터치를 나누는 두 사람 사이의 사회적 관계(낯선 사람, 친구, 연인, 가족 등)나 대화의 문맥(위로, 축하, 친밀감 표현 등)에 따라 개인의 힘, 속도, 터치 전략과 반복성(repeatability)이 어떻게 가변적으로 변모하는지 심리/물리 통합 연구를 진행할 예정이다.
Erzhen Hu, Qian Wan, Changkong Zhou, Md Aashikur Rahman Azim, PiaoHong Wang, Xingyi Hu, Yuhan Zeng, Zhicong Lu, Seongkook Heo
ThingMoji: User-Captured Cut-Outs For In-Stream Visual Communication
(Abstract) Live streaming has become increasingly popular, driven by the desire for direct and real-time interactions between streamers and viewers. However, current text-based interactions and pre-defined emojis limit expressiveness, especially when referring to specific stream moments. We propose ThingMoji, a type of user-captured cut-outs to enhance user expression and foster more effective communication between streamers and their audience in the comment section. ThingMojis are unique digital icons created by users by capturing snapshots and annotating specific areas at any point during the stream. We developed StreamThing, a live-streaming platform integrated with ThingMojis, to explore their use during object-focused live streaming contexts. In a user study with three in-the-wild deployments reveals the expressive use of ThingMojis in diverse live-streaming scenarios with rich visual contents. Our findings show that ThingMojis enable viewers to reference specific objects, express emotions, and create shared visual narratives. Streamers found ThingMojis valuable for facilitating on-the-fly communication around visual content and fostering playful interactions. The study also uncovered challenges in ThingMoji comprehension, issues for long-term uses of ThingMojis, and potential concerns regarding misuse. Based on these insights, we discussed new opportunities for supporting object-focused communication during live streaming environments.
(Introduction) Live streaming has become an integral part of online communication and is used across various domains such as gaming, crafting, and e-commerce [51]. What sets live streaming apart from other digital media is its real-time, dynamic nature, where streamers and audiences engage in a real-time exchange, fostering a sense of community and participation [4, 12, 19, 24, 25]. Viewers can comment and ask questions during the stream, allowing streamers gauge viewers’ interests and dynamically adjust the content and direction. Consequently, viewer-streamer communication has become a key aspect of the streaming experience, moving beyond passive video consumption.
A critical challenge in live streaming emerges from the inadequacy of current communication tools — predominantly text chat and pre-defined emojis [4] — in supporting precise object-focused discourse. While viewers frequently need to reference specific objects, moments, and spatial relationships within streams [17, 50, 62, 64, 72, 81], existing tools often fall short in facilitating these nuanced interactions. These communication challenges are especially evident in streams with complex visual content. For instance, when a jewelry maker demonstrates intricate wirewrapping techniques or when a model builder showcases various assembly components, viewers struggle to precisely indicate which elements they’re discussing. Similarly, in e-commerce streams where multiple products are displayed simultaneously [72], viewers often resort to ambiguous temporal references (“the necklace you showed earlier”) or imprecise spatial descriptions (“the blue piece on the left”). Such descriptions not only consume time to compose but frequently lead to miscommunication and reduced engagement between streamers and viewers. Such descriptions lack the details and can be time-consuming to write and difficult for other viewers and the streamer to quickly understand, resulting in communication gaps and reduced engagement [73].
Previous research has attempted to address these referencing challenges through various visual annotation approaches [49, 73]. These systems [49, 73] have integrated pre-defined and free-form annotation tools for users to attach snapshots and sketches with chat-based comments, aiming to provide a more direct and visual form of communication. However, these snapshot-based methods with screenshot attachment can clutter the comment section and disrupt focus. These methods often result in coarse-grained area of interest identification and disjointed interactions, as they lack integration with textual communication. Moreover, while these approaches have shown promise in creative live streams like visual arts [49, 73], they struggle with object-focused communication tasks [41, 50, 56], e.g., hands-on activities like maker projects, crafting, and model building, e-commerce interactions involving shared physical objects, and specific gaming streams that emphasize tracking objects of interest rather than general areas of interest.
We believe that addressing these challenges and facilitating fluid visual communication of objects in live streams is critical to ensuring effective communication between viewers and the streamer. To achieve this goal, our work draws inspiration from how digital icons and emojis have successfully enhanced expressivity in online communication [16, 63]. While emojis excel at conveying emotions and simple concepts succinctly, current live streaming platforms limit viewers to pre-defined sets of emojis that cannot capture or reference the dynamic visual content being shared [49]. This suggests an opportunity: combining the communicative efficiency of emojis with the ability to reference specific objects and moments from the stream.
Our work investigates the use of user-captured cut-outs, named ThingMojis, designed for object-focused communication. Unlike typical pre-defined emojis, ThingMojis allow users to efficiently communicate context in text messages while preserving the natural flow of conversation. ThingMoji offers a unique way to enhance live-stream interaction by representing key objects of interest. It is object-based, capturing items identified by viewers; context-based, preserving the whole imagery from the stream and allowing users to create narratives enriched with contextual meanings; and time-based, turning selected live-stream moments into expressive cut-outs aligned with the video timeline.
With design principles derived from prior literature, we developed a live streaming system, StreamThing, as a prototype to investigate the use of ThingMojis during object-focused live streaming contexts. StreamThing enables viewers to efficiently create ThingMojis by brushing over objects they want to reference in the live video. These ThingMojis can then be seamlessly embedded into chat messages like regular emojis, carrying with them the rich context of when and where they were captured in the stream. The system also helps viewers and streamers keep track of these visual references through a timeline that shows when different ThingMojis were used throughout the stream. We conducted a deployment study with three streamers and 29 viewers using StreamThing. Our investigation focused on understanding how viewers create and use ThingMojis, howthese visual elements integrate into stream communication, and how their meaning and utility evolve over time. The findings demonstrated that viewers used ThingMojis as an expressive visual language channel for referencing and self-expression, while also revealing important challenges in comprehension and organization that inform future design of similar systems.
In summary, our contributions include:
The design and implementation of ThingMoji in a live stream platform that streamlines referencing and communicating spatial and temporal contexts in live video.
Results from the deployment study about the use of ThingMoji for in-stream communication during object-focused live-streaming contexts.
(Conclusion) Weintroduce ThingMoji, a user-captured cut-out designed to enhance streamer-viewer communication. ThingMojis serve as a powerful tool for spotlighting, condensing, and summarizing crucial contextual information related to object-oriented elements across various application scenarios, including creative crafting, e-commerce product presentations, and gaming. Our user study with streamers and viewers revealed promising use cases for ThingMojis across diverse live-streaming contexts, with design implications for the continued exploration of the ThingMoji concept. We anticipate that ThingMoji will pave the way for novel opportunities in object-focused sharing within the realm of live streaming, sparking further exploration of such design principles within the HCI community.
기존 라이브 스트리밍 소통 방식의 한계
객체 중심 소통(object-focused discourse)의 부재: 복잡한 시각 정보가 포함된 방송(수공예, 장난감 조립, 이커머스 등)에서 시청자가 특정 부품이나 제품을 지칭할 때, 기존의 단순 텍스트 채팅이나 기성 이모티콘 세트로는 정확한 논의가 불가능하다.
모호한 시공간적 표현의 한계: 시청자들은 "아까 왼쪽에 보여준 파란색 목걸이요"와 같이 모호하고 긴 설명을 작성해야 하므로 작성 속도가 타이밍을 놓치기 쉽고, 스트리머와 다른 시청자가 이를 즉각적으로 이해하기 어려워 실시간 소통의 단절이 발생한다.
기존 시각적 주석(annotation) 방식의 문제점: 화면 전체 스크린샷을 첨부하거나 화면 위에 그림을 그리는 방식은 채팅창을 과도하게 가려 시각적 공해(visual clutter)를 유발하고, 대화의 자연스러운 흐름을 방해하며, 텍스트 메시지와의 유기적인 인라인(inline) 결합이 불가능하다.
ThingMoji(StreamThing 시스템)
라이브 스트리밍 중 텍스트 채팅과 고정된 이모티콘의 한계를 극복하기 위해, 시청자가 실시간 방송 화면 속 특정 오브젝트를 문질러 누끼(cut-out)를 따고 이를 이모티콘처럼 채팅창에 즉각 삽입하여 소통할 수 있게 한 혁신적인 라이브 스트리밍 플랫폼이다.
사용자 정의형 컷아웃 ThingMoji: 시청자가 실시간 방송 중 원하는 객체 위를 문지르면(marking/brushing), 모바일 경량 세그멘테이션 모델(MobileSAM) 알고리즘이 가동되어 해당 오브젝트만 투명한 아이콘 형태로 실시간 추출(cut-out)한다.
객체/맥락/시간 기반 데이터 바인딩: ThingMoji는 독립된 이미지가 아니라, 해당 객체가 방송 화면의 어느 위치(spatial context)에, 그리고 어떤 비디오 타임스탬프(temporal context)에 등장했는지에 대한 메타데이터와 원본 스냅샷 프레임 정보를 내포한다.
텍스트-시각 결합형 인라인 채팅: 생성된 ThingMoji 아이콘을 일반 내장 이모티콘처럼 텍스트 메시지 사이에 자연스럽게 임베딩하여 전송할 수 있다. 스트리머나 다른 시청자가 채팅창의 ThingMoji를 클릭하면, 해당 객체가 추출된 원래 방송 화면과 타임라인 시점이 팝업되어 맥락을 즉각 역추적(context retrieval)할 수 있다.
연구 결과 및 배포 검증
야외 실전 배포 연구(in-the-wild study, N=32): 시스템의 타당성 검증을 위해 3명의 스트리머(프라모델 조립, 보드게임, 가구 가공 도메인)와 29명의 실제 시청자를 대상으로 실제 라이브 스트리밍 배포 실험을 진행했다.
시각적 참조 및 내러티브 형성: 실험 기간 동안 총 193개의 고유한 ThingMoji가 생성되었고 채팅창에서 총 452회 사용되었습니다. 시청자들은 복잡한 설명 없이도 특정 오브젝트를 즉각 referencing할 수 있었으며, 이를 활용해 유쾌한 meme을 만들거나 공유된 시각적 내러티브(shared visual narratives)를 형성했다.
스트리머의 즉각적 소통 및 유희성 강화: 스트리머들은 화면 속 콘텐츠를 기반으로 시청자들과 즉각적(on-the-fly)으로 소통하고 피드백을 줄 수 있다는 점에서 높은 만족도를 보였으며, ThingMoji를 활용한 장난스럽고 유쾌한 인터랙션(playful interactions)이 방송 몰입도를 극대화함을 확인했다.
장점
커뮤니케이션 오버헤드 감소: visual referencing가 실시간으로 이루어지므로, 타이핑 속도가 느리거나 모바일 환경인 시청자도 긴 서술형 문장 작성 없이 의도를 명확하게 전달할 수 있다.
화면 공간의 효율적 활용: 전체 스크린샷을 공유하는 방식과 달리, 객체만 잘라낸 컴팩트한 인라인 아이콘 형태를 취하므로 한정된 모바일 채팅창 레이아웃의 시각적 공해(clutter)를 최소화합니다.
맥락 보존형 인터랙션: 단순한 이미지 스티커를 넘어, 클릭 시 원본 프레임의 시공간적 위치를 복원해 주므로 방송 중간에 새로 들어온 시청자도 대화 문맥에 쉽게 참여할 수 있다.
한계점
의미의 모호성(Comprehension Issue): 주변 텍스트 맥락이나 설명이 부족한 상태에서 ThingMoji 아이콘만 단독으로 연달아 전송될 경우, 스트리머나 다른 시청자가 해당 아이콘을 왜 보냈는지 의도(인증, 질문, 단순 감탄 등)를 직관적으로 파악하기 어려운 경우가 발생합니다.
아이콘 관리 및 조직화 부담: 한 방송에서 수십 개의 ThingMoji가 한꺼번에 생성되면 시청자의 '내 ThingMoji 보관함' 탭이 복잡해져, 원하는 컷아웃을 빠르게 찾아 재사용하기 어려워지는 관리 효율성 문제가 나타납니다.
악용(misuse) 및 검열 시스템 부재: 스트리머가 숨기고 싶어 하거나 방송 사고로 노출된 부적절한 화면 영역, 혹은 타인의 프라이버시가 침해될 수 있는 오브젝트를 시청자가 악의적으로 누끼 따서 도배할 경우 이를 실시간으로 제어할 필터링 장치가 부족하다.
향후과제
스마트 제안 및 자동 조직화 알고리즘: 시청자가 일일이 문지르지 않아도 스트리머가 현재 만지고 있거나 카메라 중심에 있는 주요 객체를 AI가 판단해 상단에 컷아웃 템플릿으로 자동 제안(proactive recommendations)하고, 카테고리별로 자동 분류해 주는 보관함 기능을 고도화할 계획이다.
다중 플랫폼 스케일링 및 보안 검열 융합: 수천 명 이상이 참여하는 대규모 트위치, 유튜브 라이브 환경에서도 채팅 성능 저하(latency)가 없도록 오케스트레이션을 최적화하고, 컴퓨터 비전 기반의 실시간 유해 객체 검열(NSFW/privacy filtering) 모듈을 결합하여 안전한 시각 소통 인터페이스를 정립할 예정이다.
Ajwa Shahid, Jane Chung, Seongkook Heo
Exploring Older Adults Personality Preferences for LLM-powered Conversational Companions
(Abstract) Studies have shown promise in using conversational agents (CAs) to reduce loneliness among older adults. Recent advances in large language models (LLMs) have enhanced these systems by enabling more natural, human-like interactions. However, little is known about how CA personalities influence user experiences, despite personality being a key factor in human conversation. To explore this, we developed a smart speaker-based CA powered by an LLM and conducted a two-phase user study consisting of in-lab sessions and home deployments. We investigated how older adults perceive different CA personalities and how these personalities affect their interaction experiences. Our findings show that participants could distinguish between different personality characteristics and had varying preferences for different personalities during both shortterm and long-term interactions.
(Introduction) Studies have shown that older adults are generally more susceptible to loneliness than other age groups, due to loss of social connections, declining health and mobility that limit social activities, and reduced interactions with family and friends [13]. A study also showed that loneliness has been linked with poor health and wellness outcomes for older adults [4]. As a result, there is growing interest within the research community in developing interven-tions to address loneliness in this population. One promising area of research in Human-Computer Interaction focuses on conversational agents (CAs) to alleviate loneliness among older adults. Research has shown that such CAs can reduce feelings of loneliness by providing easily accessible social interaction, especially for older adults who are more likely to have limited opportunities for social engagement [8]. Multiple studies have shown some promise in the potential of companion CAs in reducing loneliness among older adults [2, 20]. As this is an emerging field, most prior studies have focused on exploring the use of various CAs by older adults, including voice assistants like Amazon Alexa [33] and chatbots such as ChatGPT[1]. Limited research has explored how personalizing CAs can enhance user experience, with most existing studies focusing on contextualizing agent responses based on user information like preferences or routines [2]. However, many important aspects of personalization remain underexplored. One such aspect is the CA’s personality, as psychological studies show that personality traits play a significant role in shaping communication patterns [25].
Building on these insights, this work aims to explore the effects of different personalities of Large language model (LLM)-powered CAs on the user experience and perceptions of older adults to answer the following research questions:
RQ1: How do older adults perceive different personality traits in LLM-powered voice conversational agents?
RQ2: What are the observed effects of different personality traits in LLM-powered voice conversational agents on older adults’ experience with using a conversational agent?
To answer these research questions in a naturalistic setting, we implemented a smart speaker device that includes a mini PC, speaker, and microphone sothat users can useit intheir homes, similar to the setup used in a previous study on the use of CAs [1]. We also developed a CA program that uses an LLM for processing the conversations. The CA system we developed supports three distinct personality profiles, each characterized by a dominant trait: Extroversion, Agreeableness, or Conscientiousness. To understand how CA’s personality traits affect older adults’ perceptions and experiences, we conducted a two-phase user study. In the first phase, older adults participated in an in-lab session, engaging in a 10-minute conversation with each personality variant of the agent. The second phase involved a deployment study, where the device was set up in participants’ homes for a 12-day period. Throughout the study, we examined participants’ perceptions and experiences with each personality type using a multi-method approach, including personality assessments, preference ratings, interviews, daily diary entries, and analysis of conversation transcripts between the older adults and the agents. We found that most participants preferred an Agreeable CAin shorter conversations while preferring an Extroverted CA for long-term use. We also found that Agreeableness can sometimes be perceived as sycophantic, while Extroversion may come across as insincerely positive. We discuss how these traits can be balanced to make them more suitable for conversational companions. We then offer insights into potential next steps that can help achieve our goal of designing the ideal conversational companions for older adults.
(Conclusion) We observed that personality perceptions and preferences varied significantly among participants, with interesting differences observed across the contexts of the Lab Study and the Deployment Study. For example, participants who favored a particular personality during the short conversations in the Lab Study sometimes expressed a preference for a different personality during the longerterm Deployment Study. Phase 1 and 2 had 5 and 3 participants respectively, and while this is not a large enough sample size to understand participant experiences in depth, the findings from this study provide insights into how different personalities can be balanced to better suit the role of conversational companions for older adults across different contexts.
The next natural step in our research is to conduct a more thorough study with more participants and a longer deployment. These future investigations could also explore how the personalities of older adult participants influence their interaction experiences with CAsexhibiting distinct personalities, as previous studies have found relationships between participant characteristics and their perceptions of CAs [6, 35, 36, 38]. The findings from in-depth investigations will inform the design of a conversational agent as a conversation companion for older adults. This will allow us to assess how effectively these interactions help older adults reduce loneliness. Another promising direction could be identifying and tailoring a personality for a conversational agent, and then assessing the effectiveness of the CA’s interactions with the older adult participants in mitigating loneliness. This could be achieved by conducting pre and post-study loneliness assessments for over an extended deployment period.
Additionally, drawing from prior research and our observations that older adults value responses contextualized by previous interactions, we can consider developing a dynamic system capable of adapting its personality based on retained context. This approach would reduce the possibility of older adults having to frequently adjust personality settings, minimizing cognitive load to ensure a smoother user experience. Such a system has the potential to enhance both the usability and the emotional connection between older adults and their conversational agents.
Our eventual goal is to design personalized CAs for older adults that can alleviate loneliness and encourage or facilitate socialization with other people. These CAs should be seen as complementary tools rather than substitutes for human companionship. In this paper we take the first step toward that goal, presenting preliminary work from a multi-phase qualitative study on evaluating different induced personalities in LLM-powered CAs for older adults. We present initial findings on how older adults perceived and interacted with the LLM-powered CAs, each featuring a distinct induced personality. Based on our insights, we give recommendations on the design of personalized companion CAs for older adults and outline possible next steps to achieve our goal.
기존 대화형 에이전트(CA) 연구의 한계
개인화 요소의 다차원적 탐색 부족: 기존 고령층 대상의 CA 개인화 연구는 주로, 사용자의 일정이나 취향 등 컨텍스트(맥락) 정보를 단순 반영하는 데 그쳤으며, 인간 대화에서 핵심 역할을 하는 에이전트 자체의 personality가 미치는 영향은 거의 연구되지 않았다.
기존 음성비서의 맥락유지 한계: 아마존 알렉사(Alexa) 등 기존의 상용 음성 비서는 이전 대화의 문맥을 기억하지 못해 자연스러운 후속 질문(follow-up questions)을 던지지 못하므로, 고령층 사용자들이 대화의 단절과 심각한 좌절감을 느끼는 원인이 되었다.
장/단기적 성격 효과 검증의 부재: LLM을 활용해 다양한 성격 특성을 유도(induction)할 수 있음은 증명되었으나, 이러한 인위적인 성격 변형이 실제 외로움을 겪는 고령층의 장기적인 실생활 환경(in-home deployment)에서 어떤 구체적인 주관적 경험 변화를 주는지 검증된 데이터가 없었다.
핵심 기능 및 연구 방법론
LLM 기반 콘텍스트 메모리 스마트 스피커 개발: Raspberry Pi(또는 PC 베이스 시스템), 스피커, 마이크, 전용 버튼 및 네트워크 모듈을 3D 프린팅 섀시에 탑재하여 제작했다. GPT-4o를 연동하여 세션이 끝날 때마다 대화 내용을 구조화된 요약본(summary)으로 임베딩 저장해 다음 대화 시 이전 기억을 완벽히 복원(memory retention)하는 하드웨어-소프트웨어 통합 시스템을 구축했다.
P² (Personality Prompting)를 통한 성격 유도: 빅 파이브(big five) 성격 모델 중 부정적 감정을 유발하는 신경증(N)과, 외향성과 개념이 중복되기 쉬운 개방성(O)을 제외하고, 외향성(E, extroverted), 친화성(A, agreeable), 성실성(C. conscientious) 세 가지 프로필을 프롬프트 엔지니어링 기법으로 정밀 유도했다.
실험실(lab) 및 가정 내 배포(deployment) 2단계 연구: 1단계로 5명의 고령층 참가자와 실험실에서 각 성격별 에이전트와 10분간 대화하게 한 후(라틴 스퀘어 교차 검증), 2단계로 3명의 참가자 가정에 기기를 직접 설치해 12일간 실제 삶 속에서 장기적인 상호작용 및 일기 기록, 인터뷰 데이터를 수집하는 혼합 연구 방법론을 채택했다.
연구 결과
상호작용 기간에 따른 성격 선호도의 반전: 단기 대화(실험실 세션)에서는 대부분의 참가자가 따뜻한 칭찬과 공감을 건네는 친화적인(agreeable) 에이전트를 가장 선호했다. 하지만 12일간의 장기 대화(가정 배포 세션)로 넘어가면서, 단순 리액션을 넘어 창의적이고 적극적으로 대화를 주도하는 외향적인(extroverted) 에이전트에 대한 선호도가 유의미하게 높아지는 역동적 변화를 확인했다.
성격별 페인 포인트(pain point) 발굴
친화형 에이전트: 사용자의 모든 말에 무조건 동조하고 되풀이하는 아첨(sycophancy) 및 미러링 경향이 누적되어, 장기적으로는 "진짜 인간다운 대화가 아니라 로봇 같다"라는 질림 현상을 유발했다.
외향형 에이전트: 높은 활력과 즉흥성(spontaneity)으로 웃음을 자아냈으나, 지나친 낙관주의와 과장으로 인해 도리어 진정성 결여(insincerity)로 다가와 장기적인 신뢰 관계를 저해할 수 있음이 확인되었다.
성실형 에이전트: 3개 성격 중 가장 낮은 선호도를 기록했으며, 정보 전달 위주의 딱딱하고 정형화된 대화 스타일로 인해 고령층에게 무관심하고 지루한(disengaged/blah) 성격으로 인식되었다.
음성 및 성별 할당의 교차 효과(gender assignment): 시스템에서 성별 중립적(gender-neutral) 음성을 제공했음에도, 참가자들은 에이전트가 표방하는 성격에 따라 목소리의 피치나 에너지가 각기 다르다고 인지했다. 또한, 에이전트의 성격적 특성에 기반해 인위적으로 기계에 남성 혹은 여성의 젠더를 투영하여 인식하는 의인화 현상이 관찰되었다.
장점
장/단기 종단적 연구 체계: 단순 단회성 실험실 인터랙션에 그치지 않고, 12일간의 가정 내 배포(in-home deployment)를 통해 고령층 사용자와 AI 에이전트 간의 관계 형성 과정과 시간 경과에 따른 선호도 반전(flip) 현상을 정밀하게 추적했다.
기억 보존 기반 대화 모델링: 매 대화 세션의 컨텍스트를 구조화하여 AI의 메모리에 누적 주입함으로써, 고령층 사용자가 "내 과거 이야기를 기억하고 후속 질문을 던진다"는 깊은 정서적 유대감과 연속성 있는 대화 만족도를 달성했다.
한계점
제한된 표본 크기(N=5, N=3): 깊이 있는 질적 분석과 일기 기록 연구(diary study)를 위해 참가자를 밀착 관리했으나, 전반적인 고령층 인구 통계학적 특성으로 실험 결과를 대규모로 일반화하기에는 정량적 표본의 크기가 다소 제한적이다.
텍스트-음성 변환(TTS) 인터페이스의 고정성: 프롬프트(P²) 제어로 대화의 내용적 성격은 완벽히 다변화했으나, 목소리 톤이나 발화 속도 같은 청각적 paralinguistic cues가 하나의 고정된 합성 음성으로 출력되어 성격의 외형적 생동감을 100% 극대화하지는 못했다.
향후과제
성격-음성 동적 싱크로나이즈드 엔진: LLM이 생성하는 성격 프롬프트의 톤앤매너와 실시간으로 연동되어, 외향형 성격일 때는 발화 속도가 빨라지고 억양이 다이내믹해지며, 성실형일 때는 차분하고 일정한 피치로 톤이 자동 변조되는 성격-TTS 통합 파이프라인을 구축할 예정이다.
사용자 상태 맞춤형 가변 성격 제어 알고리즘: 에이전트의 성격을 하나로 고정하는 대신, 고령층 사용자의 현재 당일 감정 상태(슬픔, 외로움, 활기참 등)를 대화 서두에서 실시간 감지하여, 위로가 필요할 때는 친화형으로, 무료함을 달래고 싶을 때는 외향형으로 성격의 농도를 동적으로 블렌딩하는 가변형 CA 알고리즘을 고도화할 계획이다.
Md Aashikur Rahman Azim, Zihao Su, Seongkook Heo
Your Hands Can Tell: Detecting Redirected Hand Movements in Virtual Reality
(Abstract) In-air hand interactions are prevalent in Virtual Reality (VR), and prior studies have shown that manipulating the visual movement of the hand to be different from the actual hand movement, i.e., hand redirection, could create a more immersive and engaging VR experience. However, this manipulation risks degrading task performance and, if maliciously applied, poses a threat to user safety. Such manipulations may arise from VR applications developed with intentional or inadvertent perceptual manipulations that yield harmful outcomes. We advocate for a user’s prerogative to be informed of any such potential manipulations before application usage. To address this, our study introduces an Autoencoder-based anomaly detection technique that leverages users’ inherent hand movements to identify hand redirection, thereby preserving the integrity of application use. Our model is trained on regular (i.e., non-manipulated) hand movement patterns and employs a stochastic thresholding approach for anomaly detection. We validated our method through a technical evaluation involving 21 participants engaged in reaching tasks under manipulated and non-manipulated scenarios. The results demonstrated a high accuracy of hand redirection detection at 93.7%, with an F1-score of 93.9%.
(Introduction) Over the past few years, Virtual Reality (VR) has gained a significant rise in popularity, driven by advancements in high-fidelity 3D visual displays and 6-degree-of-freedom (DOF) tracking technologies. These developments have expanded VR’s application across diverse fields, including entertainment, education, and work-related tools [4, 28, 47, 54, 56]. VR’s unique capability to immerse users in a completely virtual environment, distinct from the physical world, offers unprecedented opportunities for enhancing user experiences. One of the ways VR utilizes to enhance user experiences is perception manipulation, which leverages visual dominance to manipulate users’ perception by subtly altering the perceived reality [19]. Hand redirection is one of perception manipulation techniques to manipulate perception, such as diverging the visual representation of hand movements from their actual trajectory [5, 13, 31], creating illusions of weight [45], and altering perceived object size [2], have been extensively studied. Additionally, the use of dynamic movement gains to improve ergonomic interactions within VR environments has also been explored [55].
Despite their promise, these dynamic manipulation techniques may inadvertently impact the precision of skilled motor movements, which are developed through extensive repetition. Humans rely on both visual and kinesthetic feedback to refine and optimize their movements, learning to adjust based on the disparity between intended and actual movements [33, 38, 46, 50]. The acquisition of such motor skills and the development of muscle memory is crucial for performing tasks with increased speed, consistency, and stability, with minimal cognitive load [34]. However, the dynamic nature of perception manipulation, which alters the mappings between virtual and real hand movements, poses challenges to the development of such automaticity. Moreover, there are concerns that perception manipulation could be maliciously exploited to harm users, with potential adversaries including VR developers who might intentionally or unintentionally introduce harmful manipulations [51]. Instances of such exploitation have been documented, including manipulation of VR safety boundaries to control user movement without their awareness [10]. These studies show that perception manipulation can be harmful and pose significant risks when used maliciously. Such manipulations may degrade performance, compromise user safety, or exploit vulnerabilities. Detecting these manipulations is challenging, especially when developers do not disclose their code or inform users about the application’s manipulation state. To protect users from such manipulations, it is crucial to detect such manipulations through alternative means. In this work, we propose a semi-supervised anomaly detection approach that detects subtle changes in the user’s behavior during reaching tasks.
This work introduces a novel approach to detecting hand redirections, which is a type of perception manipulation in VR. We leverage natural hand movements within the theoretical framework of Woodworth’s two-component model of goal-directed movements, established in 1899 [57]. According to this model, goal-directed actions comprise an initial ballistic phase, directing the limb toward the target, followed by a corrective phase that adjusts for trajectory errors using visual feedback. Our observations indicate that the speed of users’ corrective movements varies in response to perception manipulation, a variation not present under normal conditions. This phenomenon occurs when perception manipulation is applied in a particular direction, causing users to adjust their hand movements in the opposite direction. One can easily notice this adjustment, which is evident in the hand movement trajectories shown in Figure 1 and Figure 5. This observation forms the basis of our hypothesis that the characteristics of hand movements during corrective phases, such as speed, acceleration, and jerk, can serve as indicators to differentiate between manipulated and normal movement patterns.
To test our hypothesis, we developed a semi-supervised machine learning model based on an Autoencoder (AE) [6, 15] for anomaly detection. The key aspect of using Autoencoder is that we do not need to train the model on manipulated data. Instead, the model is trained solely on the user’s normal movement data, identifying anomalies in movement patterns during testing. In other words, by leveraging on the normal movement data, the model distinguishes between manipulated and non-manipulated instances by learning to reconstruct normal movement patterns, with the premise that anomalies—manipulated movements—will exhibit higher reconstruction errors [6, 62]. This approach leverages the assumption that normal instances are more accurately reconstructed from learned representations, while anomalies deviate significantly, resulting in higher reconstruction errors. The determination of an anomaly is contingent upon a reconstruction error exceeding a predetermined threshold. To optimize this threshold, we conducted multiple evaluations of our model, selecting the optimal threshold based on the differentiation between normal and manipulated data.
The efficacy of our approach was validated through a user study involving 21 participants, where we collected hand movement data in VR under both normal (non-manipulated) and manipulated conditions. Our study design incorporated orientation manipulation at two levels (±10 ° ) to simulate manipulated movement conditions. Data collection was structured into three sessions: an initial session to establish baseline hand movements (S1), a second session to collect data under manipulated conditions (S2), and a final session to gather additional baseline data (S3). The model was trained in a semi-supervised manner using only S1 data to learn regular hand movement patterns, with S2 and S3 data serving to evaluate the model’s ability to accurately detect manipulated instances as anomalies and baseline instances as normal. Our findings, derived from a within-subject analysis employing a 70-30 train-test split, demonstrate that our model achieves an anomaly detection accuracy of 97.7% (F1-score: 98.1%). Further validation through leave-one-participant-out (LOPO) cross-validation confirmed the robustness of our model in detecting anomalies across new users, with an accuracy of 93.7% (F1-score: 93.9%).
The contributions of this paper are twofold:
Introduction of a novel deep learning approach for detecting the presence of hand redirection in VR from user’s hand movement behavior. To our knowledge, this is the first method to automatically detect the hand redirection in VR from the user’s behavior data.
The dataset of manipulated and non-manipulated hand movement data1 from VR tasks, addressing the absence of publicly available datasets for hand redirection research.
(Conclusion) This study introduced a semi-supervised AE model for detecting hand movement manipulations in VR environments, leveraging velocity and acceleration profiles from users’ hand movements. Through a comprehensive analysis, employing both within-subjects and LOPO approaches, the model demonstrated high accuracy (93.7%) in identifying anomalies, underpinned by the careful selection of an optimal anomaly threshold. Despite facing limitations such as the absence of SSs in certain instances and the study’s duration, the research highlights the model’s potential to enhance VR security by preemptively identifying and warning users of manipulative applications. Future investigations will aim to broaden the model’s applicability by incorporating varied manipulation types and extending the observational period. This work lays a foundational step towards developing robust, user-centric anomaly detection systems in VR, promising a safer interactive experience for users across diverse VR applications.
가상현실(VR) 환경에서 손 왜곡 기술의 장점과 한계
손 왜곡(hand redirection) 기술의 장점: VR 내에서 손을 허공에 움직이는 bare-hand 인터랙션 시, 시각적으로 보이는 가상 손의 위치나 궤적을 실제 손의 물리적 움직임과 다르게 변조함으로써 한정된 공간 내에서 더 몰입감 있고 몰입형(immersive)인 사용자 경험을 생성해 낼 수 있다.
사용자 안전 및 작업 정밀도 저해 위험: 하지만 미세한 시각-운동 불일치(visual-motor mismatch) 조작은 오랜 반복을 통해 뇌와 근육에 형성된 사용자의 정밀한 운동 능력(motor skills)과 고유 감각을 교란하여 작업 정확도를 떨어뜨릴 수 있다.
악의적 변조 및 안전 경계 조작 위험: 만약, VR 어플리케이션 개발자나 외부 악성 공격자가 사용자가 인지하지 못하는 역치 미만(sub-threshold) 수준의 미세한 인지 조작을 악의적으로 주입할 경우, 사용자의 신체 움직임을 임의로 강제 통제(예, human joystick attack)하거나, 가상 경계선을 왜곡하여 가구 충돌 등 심각한 물리적 안전사고를 유발할 수 있다.
불투명한 블랙박스 어플리케이션의 보안적 한계: third-party 어플리케이션이 소스코드를 공개하지 않거나, 플랫폼 내부에 왜곡 알고리즘을 은밀히 포함하고 있을 경우, 시스템 레벨에서 이러한 비정상적 조작 여부를 사전에 감지하고 사용자의 신체적 안전과 프라이버시를 능동적으로 보호할 보안 장치가 전무했다.
Your Hands Can Tell
VR 환경 내에서 어플리케이션이 소스 코드를 숨기더라도 사용자의 미세한 손 움직임 역학(hand movement dynamics) 변화만을 분석하여, 배후에서 은밀하게 가해지는 손 왜곡(redirection) 조작을 실시간으로 감지해 내는 오토인코더(autoencoder) 기반의 혁신적인 VR 보안 및 이상 탐지(anomaly detection) 시스템이다.
우드워스(Woodworth)의 2단계 운동 모델 기반 피처 추출: 인간의 목표 지향적 도달 동작이 초기 고속 탄도 단계(PS, Primary Submovement)와 시각적 피드백을 통해 목표점에 안착하는 미세 보정 단계(SS, Secondary Submovement)로 나뉜다는 점에 착안했다. 시각적 왜곡이 주어지면 사용자가 무의식적으로 반대 방향 보정 제어를 수행하느라 SS 단계의 속도(velocity)와 가속도(acceleration) 프로필에 미세한 이상 파형이 생긴다는 점을 규명하여 핵심 특징(feature)으로 추출했다.
LSTM 기반 오토인코더(AE) 반지도 학습(semi-supervised): 조작된 공격 인스턴스 데이터를 일일이 학습할 필요 없이, 조작이 없는 상태에서 수집된 사용자의 정상적인(Normal) 손 움직임 패턴만을 신경망에 학습시킨다. 정상 동작 시퀀스는 압축 후 완벽히 복원(낮은 복원 오차)하지만 왜곡 조작이 가해진 동작은 복원 능력이 현저히 떨어져 잠재 공간(latent space) 오차가 급격히 커지는 특성을 이용해 이상치(anomaly)로 분류한다.
스토캐스틱 임계값 및 데이터셋 검증(N=21): 시스템 검증을 위해 21명의 참가자를 대상으로 VR 환경에서 총 3개 세션(기본 측정 S1, ± 10º 방향 손 왜곡 주입 S2, 복귀 측정 S3)의 도달(reaching) 태스크를 수행하게 하여 총 4,704개의 정상 baseline 데이터와 1,680개의 조작 데이터를 수집 및 검증했다.
연구 결과 및 보안학적 의의
극도로 높은 수준의 조작 탐지 정확도 달성: 피험자 내(within-subjects) 분석 환경(70-30 train-test split)에서 97.7%의 최고 수준 이상 탐지 정확도(F1-score: 98.1%)를 기록했습니다. 특히 완전히 새로운 사용자를 대상으로 모델을 평가하는 피험자 간(LOPO,Leave-One-Participant-Out) 교차 검증에서도 93.7%의 높은 일반화 정확도(F1-score: 93.9%)를 확보하여 모델의 강력한 강건함(Robustness)을 증명했다.
일관된 범용 임계값(𝜏=6)의 유효성 검증: 수학적 최적화 메커니즘을 통해 도출한 이상 탐지 임계치 수치(𝜏=6)가 개인별 맞춤형 세팅뿐만 아니라, 시스템이 처음 보는 새로운 사용자를 대입한 LOPO 분석 환경에서도 완전히 일관되게 적용 가능함을 발견했다. 이는 별도의 재학습 없이 실시간 온-오프라인 시스템(online deployment)에 즉시 도입할 수 있음을 정량적으로 뒷받침한다.
선제적 가상현실 보안 인프라(framework) 제안: 본 기술을 VR 운영체제 아키텍처나 앱스토어 보안 검수 인프라에 통합할 경우, 사용자가 새로운 앱을 실행하여 몇 번의 자연스러운 손 움직임 상호작용을 수행하는 과정에서 시스템이 배후의 악의적인 인지 조작을 자동으로 감지하고 위험 경고를 보낼 수 있는 사용자 중심의 능동형 VR 보안 토대를 마련했다.
장점
제로 공격 데이터 훈련: 오직 정상 데이터(normal dataset)만을 기반으로 오토인코더를 학습시키는 반지도 학습 방식을 채택하여, 향후 어떤 변형된 형태나 미지의 손 왜곡 공격(zero-day redirection attacks)이 들어오더라도 사전에 유연하게 잡아낼 수 있다.
독립적 블랙박스 오퍼레이션: 대상 어플리케이션 내부의 렌더링 소스 코드나 셰이더 함수 구조를 뜯어볼 필요 없이, 헤드마운트 디스플레이(HMD)가 트래킹하는 사용자의 순수 원시 손 좌표 정보(kinematic data)에만 의존하므로 플랫폼 보안 레이어를 해치지 않고 백그라운드에서 구동된다.
한계점
조작 크기(magnitude)에 따른 탐지 해상도 변동: 손 왜곡이 가해지는 각도가 ± 10º 수준일 때는 운동 역학 변화가 뚜렷하여 완벽히 감지해 내지만, 만약 공격자가 사용자의 고유 감각 역치(detection threshold)보다도 훨씬 미미하고 극소한 수준(예, 1º ~ 3º 미만)으로 오랜 시간에 걸쳐 아주 천천히 왜곡을 가할 경우 오토인코더의 복원 오차가 임계치(𝜏=6)를 즉각 넘지 못해 초기 감지 레이턴시가 길어질 수 있다.
도달 동작(reaching task) 중심의 피처 제한: 본 모델은 우드워스의 목표 지향적 탄도 운동 법칙에 강하게 바인딩되어 피처를 추출하므로, 정형화된 도달 동작이 아닌 VR 게임 내에서의 복잡한 자유형 드로잉, 3D 가상 객체 조립, 양손 제스처 등 연속적이고 불규칙한 자유 동작(free-form manipulation) 환경에서는 이상 패턴을 정밀하게 분리해내기 위한 피처 파이프라인의 추가 고도화가 필요하다.
향후과제
자유 형태 인터랙션 및 시퀀스 최적화: 특정 태스크 시나리오에 종속되지 않고 사용자가 가상 현실 내에서 행하는 모든 불규칙한 손놀림(continuous free-form movements) 데이터 흐름 속에서도 정상과 왜곡 상태를 실시간 가동 오차 윈도우로 구별해낼 수 있도록 시공간 어텐션 메커니즘(spatial-temporal attention)을 오토인코더에 결합할 예정이다.
다중 인지 변조 통합 탐지 인프라 확장: 손의 물리적 위치 왜곡을 넘어, 시야각을 강제로 돌리는 시선 왜곡(gain manipulation), 가상 공간의 크기를 미세하게 압축하는 공간 가상화 왜곡(redirected walking), 그리고 프레임 레이트를 인위적으로 미세 변조하는 저사양 지연 공격 등 VR 환경 전체를 위협하는 다양한 다차원 인지 조작 공격을 통합 모니터링하고 디버깅할 수 있는 종합적인 온디바이스 VR 면역 시스템을 구축할 계획이다.
Buyoung Mun, Junsu Lee, Jiseong Kim, Seongkook Heo, Jaeyeon Lee
Diversifying Grain-Based Compliance Illusion by Varying Base Compliance
(Abstract) Grain-based compliance illusion mimics the mechanical vibrations that occur when a compliant object deforms with grain-like, short (∼15 ms) impulse-response vibrations. Previous work has demonstrated its robust effect on various types of devices. However, the impact of the device’s inherent compliance (i.e., base compliance) on perceived compliance remains unclear. This paper investigates the influence of base compliance on the perception of illusory compliance through three psychophysical experiments. The results show that (1) the compliance illusion remained effective with base compliance, (2) the description of compliance was affected by both illusory and base compliance, and (3) it is possible to render the compliance with the same magnitude but multiple different feelings.
(Introduction) It is crucial for people to feel the mechanical properties of an object, such as its softness and elasticity, as well as its behavior, to conduct dexterous manipulation in the real world, as it allows people to understand the material and the status of the object. For humancomputer interaction, haptic interfaces render these properties to allow users to manipulate 3D models effectively [39], precisely conduct teleportation [19], and increase the immersiveness of the virtual experience [32]. However, rendering such mechanical properties often comes at the cost of an expensive, large, and grounded device that uses mechanical or magnetic mechanisms to alter the physical properties of the haptic interface. These constraints limit their portability and usability in mobile scenarios.
To address this limitation, many illusion-based techniques have been developed to alter users’ perception rather than the physical properties of the interface. One widely used method is the visuohaptic illusion, which leverages the visual dominance of human perception. By manipulating the visual representation of an object, these techniques can make users perceive changes in stiffness [2, 48], shape [1], and weight [38]. Although effective, these methods depend on users’ visual attention and only work when the object is visually rendered and users are looking at the object. In contrast, tactile illusions create sensations of movement [6, 35] or deformation [11, 16, 21] without requiring structural changes in the object. These illusions rely on tactile actuators, such as vibrotactile mechanisms, to simulate different material properties through direct touch. This approach enables a more natural sensation, as users feel the object directly with their hands, akin to real-world interaction. Moreover, tactile illusions do not require users to look at the object, freeing their visual attention to focus on other objects or tasks.
Among tactile illusion techniques, grain-based compliance illusions have gained significant interest within the HCI community in recent years. These techniques are inspired by the psychophysical study conducted by Srinivasan and Lamotte [40], which demonstrated that participants could successfully discriminate between objects of varying stiffness using only tactile sensations. Building on this insight, researchers developed techniques utilizing grainlike short vibrations that mimic the tactile feedback caused by movement or deformation in response to force input. These studies revealed that such vibrations could create the illusion of compliance without actual physical movement or deformation [15, 16, 20, 21, 23]. Moreover, studies have shown that the properties of these illusions can be programmatically manipulated. For example, altering the virtual displacement threshold for triggering grain vibrations changes the perceived stiffness, while capping feedback for forces exceeding a predefined threshold restricts the sensation of further movement or deformation. This programmability has enabled grain-based compliance illusions to render tactile buttons with customizable force-displacement characteristics [22, 23] and virtual joints with varying movement constraints [16]. The effectiveness, adaptability, and simplicity of grain-based compliance techniques—requiring only a force sensor and a vibrotactile actuator—may explain their growing popularity in HCI research. These techniques have been demonstrated to enhance the precision [25] and realism [16, 41] of VR experiences, support high-fidelity tangible user interfaces [37], and facilitate rapid prototyping of tangible interfaces [44].
While grain-based illusion techniques have shown promising results in creating the illusion of compliance on a rigid surface enhancing the usability and user experience of interfaces, the setups used in these studies often involve an unclear parameter that may significantly influence the perception of compliance—the rigidity of the so-called rigid object. Materials that we consider rigid, such as plastic or steel, have some level of compliance. Given that grain-based illusion methods utilize force as input, devices used in previous studies may have a different level of deformation during the study. For example, some of the previous studies used acrylic plates under the finger [15, 25], 3D printed blocks [23] and handles [16], and an unknown rigid material [21] that vary in different sizes. In these studies, while the surface itself may not locally deform around the finger pad to alter the pressure distribution in the area of contact to make it feel as soft [27, 34, 42], the deformation of the base structure may have caused kinesthetic compliance (i.e., device being bent). This reveals two key issues: first, the diverse effects of base material compliance on perceived compliance properties have been largely overlooked; and second, this makes designers and engineers seeking to use grain-based illusion techniques to properly account for critical design properties and understand the resulting illusion.
In this paper, we investigate the effect of base compliance on the perception of grain-based compliance illusion, including the range of perceived compliance, Just Noticeable Difference (JND), and the perceived properties of compliance through a series of psychophysical experiments. We implemented a prototype device with a load cell and a vibrotactile actuator that plays short bursts of vibrations (i.e., grain vibrations) per a certain level of force changes to create a grain-based compliance illusion. From the top, the device consisted of a rigid finger-resting plate with a vibrotactile actuator, an interchangeable base compliance block, and a force sensor. By changing the base compliance block, we could investigate three conditions with different levels of base compliance while keeping the illusory compliance and the surface condition consistent.
Our results showed how base compliance affects perceived compliance. First, the grain-based compliance illusion remained effective with the base compliance. The softer the base compliance is, the softer the device feels with the compliance illusion. We found that the overall range of compliance illusion shifts a certain amount depending on the base compliance (Figure 1). Second, the existence and the level of base compliance affect the description of perceived compliance. While the illusory compliance dominated, the existence and the level of base compliance made perceived difference. The illusory compliance with more compliant base material was perceived lighter, softer, deeper, and more granular compared to the hard base material. Thirdly, we found a new design opportunities of compliance created by base × illusory compliance. Based on our finding in Experiments 1 and 3, by changing both base and illusory compliance, one can adjust both magnitude and feeling of compliance. In other words, one can create multiple feelings of compliance with the same magnitude of compliance. Finally, as a first investigation towards the unknown perceptual space created by base and illusory compliance, we provide design guidelines, baseline data in an interactive visualization, and areas to discover for future researchers.
The contributions of this paper are as follows:
The findings of three psychophysical experiments investigating the effect of base compliance on the perception of grain-based compliance illusion
The method of diversifying the range and the quality of perceived compliance by combining the base compliance and the illusory compliance
The findings on unknown perceptual spaces created by combining base and illusory compliance
(Conclusion) With a prototype device with a rigid surface, interchangeable compliant blocks, and different levels of grain-based compliance illusion thresholds, we explored the effect of base compliance on the perception of grain-based compliance illusion, including the range of perceived compliance, JNDs, and the quality of compliance. The results showed that the grain-based compliance illusion worked robustly regardless of base compliance. Finally, we found that the existence of base material affects the quality of compliance using multidimensional scaling and adjective rating. We hope our findings foster future HCI research on rendering, augmenting, and quantifying grain-based compliance illusions.
기존 유연성 착시(compliance illusion) 연구의 한계
기기 고유의 강성(rigidity) 매개변수 누락: 기존 연구들은 딱딱한 표면 위에서 진동을 통해 유연성 착시를 성공적으로 구현해냈으나, 정작 아크릴이나 금속 등 실험에 사용된 기기 자체의 물리적 단단함 수준(base compliance/rigidity)이 인지형성에 미치는 영향은 간과해 왔다.
동일 진동 디자인의 표현 스펙트럼 한계: 소프트웨어적으로 진동 트리거 임계값(grain threshold)이나 진동 진폭을 조정하는 방식만으로는 가상 유연성의 크기(Magnitude) 외에 감각적 촉질감(texture/feelings)의 스펙트럼을 넓히는 데 한계가 존재한다.
기기 유연성과 착시 유연성의 상호작용 메커니즘 부재: 웨어러블 햅틱 장치나 스마트폰 화면처럼 다양한 물리적 강성을 가진 실제 표면 위에서 입자 기반 착시 기술이 왜곡 없이 작동하는지, 두 유연성이 결합할 때의 전체 촉각 인지 공간이 어떻게 형성되는지 규명된 바 없다.
핵심 기능 및 연구 방법론
가변형 기본 유연성 햅틱 프로토타입 개발: 힘 센서(load cell)와 진동 액추에이터가 장착된 단단한 손가락 받침대 사이에 교체 가능한 기본 유연성 블록(base compliance block)을 삽입할 수 있는 기기를 설계했다. 물리적 강성이 다른 세 가지 조건(soft: ecoflex 00-10, medium: dragonskin 10A, hard: 아크릴 플레이트)을 구축했다.
임베디드 제어 기반 입자 착시 모델 구현: 유연성 착시의 역수인 가상 변위 단위인 illusory compliance [grain/N] 모델을 적용하여 사용자가 가하는 힘에 따라 ~15ms의 짧은 충격 응답 진동(grain vibration)을 생성하여, 최대 4.0 grain/N 범위 내에서 5개 단계의 착시 수준을 프로그래밍 제어한다.
3단계 정신물리학(psychophysical) 실험 설계: 사용자의 손가락 자세, 누르는 속도(6.25 N/s), 최대 힘(5 N)을 시각 가이드를 통해 엄격히 통제한 채, (1) 유연성의 크기 추정(magnitude estimation), (2) 최소 식별 차이(JND) 측정, (3) 다차원 척도법(MDS) 및 형용사 평가를 통한 인지 공간 분석을 수행했다.
연구 결과
물리적 강성에 따른 착시 범위의 평행이동(shift): 입자 기반 유연성 착시는 기기 고유의 단단함과 관계없이 모든 조건에서 강건하게(robust) 작동했다. 다만, 물리적 베이스 재질이 부드러울수록(soft) 착시 효과의 전체적인 인지 범위가 더 부드러운 방향으로 평행이동(shift)하는 거동을 증명했다.
과도하게 부드러운 베이스의 변별력 저하 확인: medium(10A)이나 hard 조건에 비해, 매우 부드러운 soft(00-10) 물리 베이스 환경에서는 사용자가 가상 유연성의 단계적 변화를 감지하기 위해 훨씬 더 큰 진동 임계값 변화(더 큰 JND)가 요구되었다, i.e., 다단계 유연성을 세밀하게 표현할 때 너무 말랑한 기초 재질은 피해야 함을 규명했다.
동일한 크기, 다른 느낌(Base x Illusory Compliance)의 설계 기회 발굴: 물리적 강성과 가상 진동 착시를 결합하면 동일한 유연성의 크기(magnitude)를 유지하면서도 완전히 다른 질감을 렌더링할 수 있다. 베이스가 부드러울수록 가상 유연성은 더 가볍고(light), 깊고(deep), 입자감이 있으며(granular), 고무 같은(rubbery) 느낌을 주어 가상 질감의 다채로운 디자인 표현법을 제시했다.
햅틱 어플리케이션 시나리오 제시: 카트리지 교환형 핸드헬드 장치, 고유 유연성 휠을 돌려 물리 표면 강성을 자동 변환하는 VR 컨트롤러(haptic revolver 구조 응용), 단일 베이스 위에서 넓은 유연성 영역을 만들어내는 손가락 착용형 장치 등의 구체적인 설계 가이드라인을 제공했다.
장점
촉각 표현력의 차원 확장: 단순 유연성의 강도(soft/hard) 렌더링을 넘어, 물리 베이스와 가상 알갱이(grain)의 결합을 통해 질감적 감촉(가벼움, 고무 같음 등)의 영역까지 제어할 수 있는 고차원적 햅틱 디자인 공간을 확장했다.
정밀한 가이드라인 제공: 정신물리학 실험을 통해 도출된 JND 수치와 MDS 공간 맵을 바탕으로, 하드웨어 디자이너들이 웨어러블이나 모바일 기기 설계 시 오인식을 피할 수 있는 물리적·소프트웨어적 최적 조합 값을 정량적으로 제시했다.
한계점
동적 입력 속도 변화에 따른 인지 변동성: 본 실험은 시각 가이드를 통해 사용자가 누르는 압력 속도(6.25 N/s)를 일정하게 강제 통제한 환경에서 도출된 결과이다. 실제 제약이 없는 일상적인 터치 환경에서 사용자가 아주 빠르게 내리누르거나 극도로 느리게 누를 때 알갱이 진동 주파수와 베이스 유연성이 결합하여 나타나는 역학적 노이즈 및 인지 왜곡 가능성이 존재한다.
단일 도구(재질) 및 신체 영역의 국한성: 실험이 손가락 끝(index fingertip)의 수직 압축 동작에만 집중되어 있어, 손바닥 전체로 물체를 쥐거나(grasping) 측면으로 문지르는(shear/lateral rubbing) 인터랙션 환경, 실리콘 계열 외의 직물(fabric)이나 나무 등 다른 도메인의 재질 베이스 환경까지 100% 일반화하기에는 변수가 존재한다.
향후과제
동적 터치 프로필(Dynamic Tracing) 및 힘 제어 알고리즘 고도화: 사용자가 누르는 속도와 궤적을 실시간 감지하여, 터치 속도 가변성에 맞춰 알갱이(grain)의 발생 타이밍과 진폭을 동적으로 실시간 보정(velocity-adaptive grain triggering)하는 적응형 햅틱 엔진을 구축할 계획이다.
3차원 다축 햅틱 렌더링 및 VR 컨트롤러 실전 배포: 수직 압력 외에도 비틀림(torsion), 전단력(shear force)까지 수용하는 다축 가변 유연성 액추에이터 아키텍처를 개발하고, 이를 실제 VR 서바이벌 게임의 방방 뛰는 지형 질감 표현, 가상 의료 수술 시뮬레이션의 장기(organ) 촉감 재현 등에 통합하여 장기적 유저 평가를 진행할 예정이다.