기술2025-11-20•6 min 읽기
Wan 2.5의 립싱크 기술 이해하기
Wan 2.5의 네이티브 멀티모달 아키텍처가 오디오 입력과의 완벽한 립 동기화를 가능하게 하는 방법을 심층 분석.
A
AI Research
Wan AI

Wan 2.5는 네이티브 멀티모달 아키텍처를 통해 AI 비디오 생성의 립싱크에 혁명적인 접근 방식을 도입했습니다.
오디오와 비디오를 별도의 모달리티로 처리하던 이전 접근 방식과 달리, Wan 2.5는 이들을 통합된 프레임워크에서 함께 처리합니다. 이를 통해 입 움직임과 음성 간의 훨씬 정확한 동기화가 가능해집니다.
이 기술은 오디오 입력의 음소를 분석하고 생성 과정에서 실시간으로 해당하는 비제임(시각적 입 모양)을 생성합니다. 이로 인해 불쾌한 골짜기를 통과하는 자연스러운 발화가 구현됩니다.
이 기능으로 버추얼 앵커, 디지털 휴먼, 더빙 애플리케이션 등 새로운 유스 케이스가 열렸습니다.
태그
#WanAI#AIVideo#technology#Tutorial#OpenSource
공유:


