技术解析2025-08-10•12 min 阅读
Wan 2.2 MoE架构技术解析
深入解析驱动Wan 2.2的混合专家架构,实现50%计算资源节省。
A
AI Research
Wan AI

Wan 2.2是首个将混合专家(MoE)架构应用于视频生成的主流模型。本文解释MoE的工作原理及其带来的性能收益。
MoE核心思路
传统密集模型在每次推理时激活全部参数。MoE不同:模型包含多组并行的"专家"子网络,每次只激活一部分。Wan 2.2总参数27B,单次生成只激活约14B,计算量与14B密集模型相当,能力却接近27B模型。
专家分工
每个专家子网络在训练中自动学会处理视频生成的特定方面。分析表明,不同专家的激活模式呈现清晰分化:有些专长运动估计,有些偏向纹理细节,有些擅长光照计算。这种分工不是人为设计的,而是训练过程中自发涌现的。
门控网络
一个轻量级门控网络(Gating Network)决定每次调用哪些专家。它接收输入token特征,输出每个专家的激活权重,选中Top-K个参与计算。Wan 2.2的门控策略加入了负载均衡约束,防止少数专家被过度使用。
与Wan 2.1的对比
画质:FVD指标提升约18%,人物面部一致性和运动流畅度明显改善。效率:RTX 4090上生成5秒480p约4.5分钟,同等画质密集模型约8-9分钟。显存:只激活14B参数,24GB显卡即可运行。
对后续版本的影响
MoE在2.2上的成功验证直接影响了后续设计路线。Wan 2.5和2.6沿用稀疏激活思路,并在此基础上引入多模态融合和时序建模改进。MoE是Wan系列效率优势的技术根基。
标签
#WanAI#AIVideo#technology#Tutorial#OpenSource
分享:


