옴니휴먼(OmniHuman-1): 일체형 조건부 인간 애니메이션 모델의 스케일업에 관한 새로운 접근

초록

최근 수년간 음성 기반 인물 영상 생성을 비롯한 종단간 인간 애니메이션 분야는 눈부신 발전을 이루었습니다. 그러나 기존 방식들은 대규모 일반 비디오 생성 모델로의 확장에 여전히 한계를 보이고 있어, 실제 응용 가능성이 제한적입니다.

본 논문에서는 훈련 과정에서 동작 관련 조건들을 혼합하여 데이터를 확장하는 디퓨전 트랜스포머 기반의 프레임워크인 옴니휴먼을 제안합니다. 이를 위해 혼합 조건에 관한 두 가지 훈련 원칙과 이에 상응하는 모델 구조 및 추론 전략을 도입했습니다. 이러한 설계를 통해 옴니휴먼은 데이터 기반 동작 생성을 완벽히 활용하여 매우 사실적인 인물 영상 생성을 실현할 수 있습니다.

특히 주목할 점은 옴니휴먼이 다양한 인물 콘텐츠(얼굴 클로즈업, 인물 사진, 상반신, 전신)를 지원하고, 대화와 노래를 모두 처리하며, 사람-물체 상호작용과 난이도 높은 자세까지 구현할 수 있다는 것입니다. 또한 다양한 이미지 스타일도 수용 가능합니다. 기존의 종단간 음성 기반 방식들과 비교했을 때, 옴니휴먼은 더욱 사실적인 영상을 생성할 뿐만 아니라, 입력의 유연성도 향상되었습니다. 아울러 다양한 구동 방식(음성 기반, 영상 기반 및 복합 신호)을 지원합니다. 관련 영상 샘플들은 프로젝트 페이지에서 확인하실 수 있습니다.

1. 서론

디퓨전 트랜스포머(DiT) 기반 비디오 디퓨전 모델이 등장한 이후, 텍스트 투 비디오(Text-to-Video)와 이미지 투 비디오(Image-to-Video)를 포함한 일반 비디오 생성 분야는 사실적인 영상 콘텐츠 생성에서 큰 진전을 이루었습니다. 이러한 발전의 핵심 동력은 비디오-텍스트 쌍으로 구성된 대규모 훈련 데이터입니다. 훈련 데이터셋의 확장으로 DiT 네트워크는 다양한 물체와 장면에 대한 동작 사전 지식을 학습할 수 있게 되었고, 이는 추론 과정에서 강력한 일반화 능력으로 이어졌습니다.

이러한 사전 훈련된 비디오 디퓨전 네트워크를 기반으로, 포즈 기반 인간 애니메이션이나 음성 기반 대화형 인간 생성과 같은 종단간 인간 애니메이션 모델들이 지난해부터 급속도로 발전해왔습니다. 사실적인 결과를 달성했음에도 불구하고, 이러한 모델들은 학습 과정의 단순화를 위해 엄격하게 필터링된 데이터셋으로 훈련되어 제한된 시나리오에만 적용이 가능한 상태입니다. 예를 들어, 대다수의 기존 종단간 음성 조건부 모델들은 얼굴이나 인물 사진 애니메이션에만 국한되어 있으며, 대부분의 포즈 조건부 모델들은 정적 배경에서 정면으로 촬영된 전신 이미지만을 처리할 수 있습니다.

지금까지 더 보편적인 인간 애니메이션을 위한 훈련 데이터 확장 시도는 없었습니다. 인간 애니메이션 데이터의 확장이 단순해 보일 수 있으나, 실제로는 그렇지 않습니다. 단순한 데이터 추가가 네트워크 훈련에 항상 긍정적인 것은 아닙니다. 음성 조건부 모델의 경우, 음성은 주로 표정과 연관되어 있으며 신체 포즈, 배경 움직임, 카메라 움직임, 조명 변화 등과는 연관성이 미미합니다.

따라서 이러한 무관한 요소들의 영향을 최소화하기 위해 원본 훈련 데이터는 필터링과 편집 과정을 거쳐야 합니다. 또한 음성 조건부 모델들은 훈련의 안정성을 위해 입 모양 동기화 정확도를 기준으로 추가적인 데이터 정제 과정을 거칩니다. 포즈 조건부 모델들 역시 광범위한 필터링, 편집, 정제 과정이 필요합니다. 안타깝게도 이 과정에서 상당량의 데이터가 손실되며, 버려지는 데이터의 상당 부분이 데이터 확장에 필수적인 귀중한 동작 패턴을 포함하고 있어 데이터셋 확장 노력이 무의미해지고 있습니다.

본 논문에서는 인간 애니메이션 데이터와 모델의 스케일업 문제를 다룹니다. 우리의 핵심 통찰은 훈련 과정에서 텍스트, 음성, 포즈와 같은 다양한 조건부 신호를 통합하면 데이터 손실을 크게 줄일 수 있다는 것입니다. 이러한 접근 방식은 두 가지 주요 이점을 제공합니다.

옴니휴먼(OmniHuman-1): 일체형 조건부 인간 애니메이션 모델의 스케일업에 관한 새로운 접근

초록

1. 서론

이어서 읽으려면 이메일을 등록해 주세요

AI 캐릭터 · 컴패니언의 다른 글

AI 버튜버의 "봄"은 정말 왔는가? 뉴로사마의 열광, 그리고 시즈쿠 AI의 도약

fal.ai: 2026 생성형 미디어 현황(State of Generative Media)

로보포에트 쑨자오즈 인터뷰: 업계 최고 판매량의 AI 반려 장난감, 푸조조는 어떻게 '자랐나?'

이메일로 구독하기