Wan 2.2 MoE 아키텍처 설명
Wan 2.2를 구동하는 Mixture of Experts 아키텍처의 기술적 심층 분석. 계산 50% 절감.
AI Research
Wan AI

Wan 2.2는 비디오 생성에 획기적인 Mixture of Experts (MoE) 아키텍처를 도입하여 효율성을 극적으로 향상시켰습니다. 이 기술적 혁신으로 AI 비디오 생성의 대중화가 크게 진전되었습니다.
모델은 총 270억 개의 파라미터를 가지고 있지만, 어떤 생성에서든 활성화되는 것은 140억 개뿐입니다. 이 희소 활성화 패턴은 유사한 능력을 가진 밀집 모델(모든 파라미터를 항상 사용)에 비해 계산 요구 사항을 약 50% 줄입니다. 실제 VRAM 사용량도 크게 감소하여 24GB GPU에서의 실행이 현실적이 되었습니다.
아키텍처의 핵심은 특화된 전문가 네트워크에 있습니다. 예를 들어, 모션 전문가는 물체의 움직임과 궤적을, 조명 전문가는 광원과 그림자 계산을, 텍스처 전문가는 재질의 질감 표현을 각각 담당합니다. 게이팅 네트워크(Top-2 라우팅 방식)가 입력 토큰마다 최적의 전문가 2개를 선택하고, 그 출력을 가중 합성합니다. 이 라우팅은 학습을 통해 자동 최적화됩니다.
Wan 2.1(밀집 모델)과의 비교에서 FVD(Fréchet Video Distance) 점수가 15% 개선되었고, 추론 속도는 1.8배 향상되었습니다. 특히 모션의 부드러움과 시간적 일관성에서 현저한 개선이 관찰됩니다.
MoE 아키텍처의 또 다른 장점은 확장성입니다. 새로운 전문가를 추가함으로써 기존 성능을 손상시키지 않고 새로운 능력(예: 특정 예술 스타일, 새로운 물리 시뮬레이션)을 추가할 수 있습니다. 이 설계 철학은 후속 Wan 2.5, 2.6에도 계승되어 모델 진화의 기반이 되고 있습니다.


