Wan 2.5의 립싱크 기술 이해하기
Wan 2.5의 네이티브 멀티모달 아키텍처가 오디오 입력과의 완벽한 립 동기화를 가능하게 하는 방법을 심층 분석.
AI Research
Wan AI

Wan 2.5는 네이티브 멀티모달 아키텍처를 통해 AI 비디오 생성의 립싱크에 혁명적인 접근 방식을 도입했습니다. 기존 립싱크 기술이 가지고 있던 '립싱크 어색함'이나 '부자연스러운 타이밍 오차'를 근본적으로 해결하는 기술입니다.
오디오와 비디오를 별도의 모달리티로 처리하고 후처리에서 합성하던 이전 접근 방식과 달리, Wan 2.5는 이들을 통합된 Transformer 프레임워크에서 동시에 처리합니다. 음성의 특징량과 영상 프레임 생성이 동일한 어텐션 메커니즘을 공유하여, 입 움직임과 음성 사이의 밀리초 단위의 정확한 동기화가 가능해집니다.
이 기술은 오디오 입력의 음소를 분석하고 생성 과정에서 실시간으로 해당하는 비짐(시각적 입 모양)을 생성합니다. 예를 들어 한국어의 'ㅏ', 'ㅓ', 'ㅗ', 'ㅜ', 'ㅡ', 'ㅣ' 등 각 모음에 대해 적절한 입 벌림과 혀 위치가 생성됩니다. 또한 파열음('ㅂ', 'ㅃ' 등)에서는 입술의 닫힘과 열림 타이밍이 음성과 정확히 일치합니다. 이로 인해 불쾌한 골짜기를 넘는 자연스러운 발화가 구현됩니다.
지원 언어는 한국어, 중국어, 영어를 포함한 주요 언어를 커버하며, 각 언어의 음운 체계에 최적화된 입형 모델을 내장하고 있습니다. 감정 표현에도 대응하여, 분노나 기쁨 등의 감정에 따라 입 움직임의 강도가 자동 조절됩니다.
이 기능으로 버추얼 앵커(AI 뉴스캐스터), 디지털 휴먼(고객 서비스, 안내 등), 영화/애니메이션 더빙, 다국어 교육 콘텐츠, 기업 프레젠테이션 비디오 등 폭넓은 유스 케이스가 실현되었습니다. 특히 중국의 라이브 커머스 업계에서는 24시간 가동하는 AI 앵커로 빠르게 보급되고 있습니다.


