XR · 디바이스
이머시브 멀티미디어 커뮤니케이션: 확장 현실(XR) 스트리밍 기술의 최신 동향
초록
확장현실(XR)은 급속히 발전하며 콘텐츠 제작과 소비 방식에 혁신을 가져올 것으로 전망된다. XR 환경에서 사용자는 다양한 감각적 입력을 통합하여 가상 환경에 대한 일관된 인식을 구성하게 된다.
본 연구는 XR 스트리밍의 최신 기술 동향을 검토하며 여러 패러다임을 중심으로 살펴본다. 먼저 XR의 개념을 정의하고 다양한 XR 헤드셋과 멀티모달 상호작용 방식을 소개하여 기본적인 이해의 토대를 마련한다. 이어서 XR 트래픽의 특성을 분석하여 고유한 데이터 전송 요구사항을 조명한다.
나아가 XR 시스템에서 QoE(Quality of Experience)에 영향을 미치는 핵심 요인들을 탐구하여 사용자 만족도 향상의 핵심 요소를 파악하고자 한다. 또한 XR 스트리밍의 효율성과 성능 개선을 위한 시각적 주의 기반 최적화 기법들을 제시한다. 마지막으로 현재 적용 사례들을 검토하고 주요 과제들을 조명하여 XR의 현재와 미래 발전 방향에 대한 통찰을 제공한다.
1. 서론
- 서론
확장현실(XR)은 물리적 세계와 가상 세계를 융합하여 사용자에게 몰입감 있고 상호작용이 가능한 경험을 제공하는 포괄적 기술 영역을 지칭한다. 여기에는 가상현실(VR), 증강현실(AR), 혼합현실(MR)이 포함된다.
최근 몇 년간 XR은 물리적 영역과 디지털 영역을 매끄럽게 통합함으로써 업무, 교육, 사회적 상호작용, 엔터테인먼트 등 삶의 다양한 영역에서 근본적인 변화를 이끌어내고 있다. XR 시장은 2024년부터 2032년까지 연평균 성장률 32.1%를 기록하며 2032년에는 1조 7,069억 6,000만 달러 규모에 도달할 것으로 전망된다.
하드웨어와 소프트웨어 기술의 비약적 발전은 XR 시장 성장을 가속화하며 몰입형 경험의 접근성과 효과를 대폭 향상시켰다. 특히 XR 기능이 탑재된 스마트폰과 웨어러블 기기의 확산으로 XR 경험이 더 많은 사용자에게 다가가고 있다.
더 나아가 코로나19 팬데믹으로 인한 전 세계적인 원격근무 확산과 디지털 커뮤니케이션으로의 전환은 원격 협업 도구에 대한 수요를 급격히 증가시켰다. 이에 따라 XR 솔루션은 소비자뿐만 아니라 기업 부문에서도 주목받는 기술로 자리잡고 있다.
XR은 무제한적인 움직임과 물리적 환경 및 가상 환경과의 실시간 원활한 상호작용을 통해 매력적인 사용자 경험을 제공한다. XR 애플리케이션은 몰입형 경험 제공을 목표로 하므로, 사용자가 인지하는 QoE는 XR 사용자에게 무엇보다 중요한 요소이다.
기존 서비스 개선과 미래 서비스 개발을 위해서는 사용자의 기대와 경험을 평가하고 이해하는 핵심 지표인 QoE가 필수적이다. 그러나 XR 시스템의 QoE 메트릭 평가는 QoE에 영향을 미치는 다양한 분야의 복합적 요인들로 인해 여전히 주요한 과제로 남아 있다.
또한 XR 시스템에서 우수한 QoE를 보장하기 위해서는 상당한 양의 저장 공간, 연산 능력, 네트워크 대역폭이 필요하다. 가장 중요한 문제 중 하나는 콘텐츠 트래픽의 기하급수적 증가로, 이는 현재 네트워크 인프라에 심각한 부담을 가한다. XR 애플리케이션의 광범위한 도입은 우수한 네트워크 품질과 성능에 대한 요구를 더욱 증가시키고 있다. 더불어 XR 기술은 시스템 설계, 동적 시점 예측, 적응적 스트리밍 등에서 새로운 과제를 제기한다.
기존 연구들은 XR을 보다 광범위한 멀티미디어 기술의 하위 영역으로 간주하며, 주로 교육, 헬스케어, 산업, 엔지니어링 등 특정 응용 분야에 초점을 맞추어 왔다. 하지만 이러한 연구들은 일반적으로 XR 스트리밍 고유의 과제에 대해서는 제한적인 관심만을 보였다.
한편 여러 조사 연구들이 360도 비디오 스트리밍을 다루었다. 예를 들어, Chen et al.은 전방향 비디오 코딩에 대한 종합적 검토를 제공하며 프로젝션 기법과 비디오 품질에 미치는 영향에 중점을 두었다. Xu et al.은 360도 비디오 및 이미지 처리의 발전을 검토하며 시각적 주의 모델링, 품질 평가, 압축 기법을 강조했다.
Zink et al.은 360도 비디오 스트리밍 시스템을 분석하며 콘텐츠 생성, 저장, 배포, 렌더링, QoE 평가, 엣지 기반 배포 모델을 다루었다. 높은 QoE 제공이라는 XR의 목표를 고려하여, 다수의 연구가 특히 이미지와 비디오 품질 평가에 집중해왔다.
예를 들어, Duan et al.은 XR 환경에서 시각적 및 멀티모달 주의 모델링과 지각적 품질 평가를 검토했다. Min et al.은 스트리밍, VR/AR, 사용자 생성 콘텐츠 전반에 걸친 품질 평가 접근법을 조사했다. Ruan et al.은 VR 스트리밍에 대한 QoE 평가 방법을 조사하며 머신러닝 기반 QoE 최적화 기법을 강조했다.
그러나 이러한 연구들은 주로 QoE 관점에서 360도 비디오 스트리밍의 과제를 다루고 있어, 보다 광범위한 XR 스트리밍 과제는 상대적으로 충분히 탐구되지 않은 상태이다.
본 논문은 XR 스트리밍과 관련된 현재 발전상황, 과제, 방법론에 대한 포괄적인 조사를 제공한다. 주로 360도 비디오나 특정 응용 분야에 초점을 맞추고 XR 스트리밍 과제에는 제한적인 관심만을 보인 기존 연구의 한계를 파악하고 이를 해결하고자 한다.
XR 스트리밍의 고유한 요구사항과 전문적 연구의 필요성을 강조하며, 본 논문은 멀티모달 상호작용, 트래픽 패턴, 적응적 스트리밍 기술에 대한 심층적 검토를 제공한다.
2장에서는 AR, VR, MR을 포함한 XR 용어를 정의하고, 이어서 전형적인 XR 스트리밍 시스템 아키텍처와 XR 트래픽 특성을 상세히 분석한다. 3장에서는 주요 XR 기기에서 사용되는 멀티모달 상호작용 기법을 정리한다. 4장에서는 QoE에 영향을 미치는 핵심 요인들을 논의한다. 5장에서는 응용 계층과 네트워크 계층 모두에서의 주요 시각적 주의 최적화 접근법을 소개한다. 주요 응용 사례와 과제는 6장과 7장에서 논의된다. 마지막으로 8장에서 연구 내용을 정리한다.
2. 확장현실(XR) 시스템과 트래픽 개요
2.1 XR 기술의 정의
XR은 고급 컴퓨팅과 인간-기계 상호작용을 활용하여 물리적 세계와 디지털 세계를 결합하는 다양한 몰입형 환경을 아우른다. XR에서 "X"는 다양한 공간 컴퓨팅 기술을 나타낼 수 있다. XR이 향후 더 많은 기술을 통합할 가능성이 있지만, 본 연구는 주로 VR, AR, MR에 중점을 둔다.
그림 1에서 보는 바와 같이, XR 기술의 정의와 상호관계는 현실-가상 연속체를 통해 설명할 수 있다. 이 연속체는 순전히 물리적인 현실에서 완전한 가상 세계에 이르는 스펙트럼을 나타내며, 사용자에게 다양한 수준의 몰입감과 상호작용성을 제공한다. VR, AR, MR에 대한 구체적인 설명은 다음과 같다.
- 가상현실(VR): VR 기술은 현실-가상 연속체의 끝단에 위치하는 가상 환경을 다룬다. VR은 실제 세계 주변 환경을 완전히 차단하고 완전한 몰입형 디지털 환경을 구현한다. VR 헤드셋이나 헤드 마운트 디스플레이(HMD)를 착용함으로써 사용자는 인공 세계의 360도 전방위 시야를 경험할 수 있다. 이러한 몰입형 경험은 사용자가 새롭고 역동적인 환경에 있다고 인식하도록 하는 설득력 있는 착각을 만들어낸다. 이를 통해 사용자는 가상 환경과 객체를 매우 현실적이고 매력적인 방식으로 탐색하고 상호작용할 수 있다.
- 증강현실(AR): AR 기술은 현실-가상 연속체에서 실제 환경에 가까운 영역에 위치한다. AR은 물리적 세계 위에 디지털 요소를 중첩시켜 표현한다. 이러한 기술은 이미지, 텍스트, 애니메이션과 같은 디지털 요소를 통합하여 물리적 세계를 향상시킨다. 사용자는 AR 안경, 태블릿, 스마트폰을 통해 이러한 요소들에 접근할 수 있다. 특정 AR 경험에서 물리적 요소와 가상 요소 간에 일정 수준의 상호작용이 있을 수 있지만, 디지털 구성요소와 물리적 구성요소 간의 직접적인 상호작용은 일반적으로 제한적이거나 없는 경우가 대부분이다.
- 혼합현실(MR): MR 기술은 현실-가상 연속체의 중심부에 위치한다. 실제 세계 위에 디지털 특성을 중첩시켜 물리적 항목과 디지털 항목이 실시간으로 공존하며 서로 상호작용할 수 있게 한다. 따라서 MR 시스템은 환경으로부터 입력을 받아 이에 따라 적응한다. 예를 들어, 사용자는 자신이 있는 방 안에 디지털 객체를 배치하거나 회전시키는 등 다양한 방식으로 이러한 가상 요소와 상호작용하여 매력적이고 상호작용적인 경험을 만들어낼 수 있다.
2.2 XR 시스템 아키텍처
XR 시스템의 전형적인 구조가 그림 2에 제시되어 있으며, 이는 XR 사용자, 헤드셋, 서버를 포함한다. 현재 대부분의 XR 시스템이 로컬 렌더링을 채택하고 있으므로, XR 헤드셋은 사용자 입력 캡처, 콘텐츠 렌더링, 공간 컴퓨팅, 데이터 처리(예: 로컬 애플리케이션 로직 및 알고리즘)와 같은 대부분의 연산 및 처리 작업을 담당한다. 로컬 애플리케이션 로직은 로컬 기기에서 실행되는 일련의 규칙과 작업을 의미한다.
XR 서버는 XR 애플리케이션 메커니즘을 위한 복잡한 연산을 수행하고, XR 애플리케이션의 전역 로직을 관리하며, 연결된 모든 헤드셋으로부터의 입력을 처리하고, 일관된 애플리케이션 상태를 유지하며 모든 사용자가 동일한 콘텐츠를 경험하도록 보장하기 위해 충돌을 해결한다. 서버는 클라이언트에게 실시간 업데이트를 배포하여 모든 사용자가 가상 세계에 대한 동기화된 시각을 갖도록 보장함으로써 응집력 있고 매력적인 멀티플레이어 경험을 가능하게 한다.
사용자는 입력 기기와 센서를 통해 다양한 멀티모달 상호작용 방법(3장에서 설명)으로 XR 시스템과 상호작용한다. 획득된 상호작용 데이터는 XR 헤드셋이나 다른 기기에 의해 처리되고 XR 서버로 전송된다. XR 서버는 XR 헤드셋에 콘텐츠 업데이트를 제공한다. 헤드셋은 콘텐츠를 렌더링하고 상호작용 데이터를 처리하여 결과를 다시 사용자에게 전송한다.
서버와 헤드셋 간의 통신은 실시간으로 이루어져, 한 사용자의 행동이 다른 사용자들의 XR 환경에서 신속하고 정확하게 반영되도록 보장한다. XR 헤드셋과 서버는 함께 사용자들이 일관된 가상 세계 내에서 복잡하고 실시간 상호작용에 참여할 수 있는 원활하고 몰입적인 환경을 구현한다.
2.3 스트리밍에서의 XR 트래픽 패턴
XR 스트리밍에 대한 최적화 방법을 논의하기 전에, 먼저 XR 트래픽 패턴을 살펴보고 XR 스트리밍에서의 잠재적 문제들을 파악한다. XR이 사용자에게 멀티모달 상호작용과 몰입형 경험을 제공하므로, 그 트래픽은 전통적인 콘텐츠 트래픽과 상당히 다르다. XR에 대한 관심 증가와 주목할 만한 발전에도 불구하고, XR 스트림의 트래픽 특성화는 여전히 대부분 명확하지 않다. XR 네트워크 트래픽을 분석하고 모델링하는 연구는 상대적으로 부족한 상황이다. 따라서 XR 시스템은 사용자를 위한 최적의 성능과 QoE를 보장하기 위해 현재 통신 시스템에서 트래픽을 평가하는 발전이 필요하다.
그림 3에서 보는 바와 같이, XR 트래픽은 연결 단계와 전송 단계로 나눌 수 있다. 연결 단계에서는 안정적인 연결을 보장하기 위해 HTTP가 사용되고, 전송 단계에서는 지연을 최소화하기 위해 UDP가 사용된다. 한편 트래픽은 다운링크(DL)와 업링크(UL) 스트림으로 구분할 수 있다. 두 스트림 모두에 다양한 유형의 패킷이 존재한다.
보다 구체적으로 살펴보면, 전형적인