Wan 2.6发布:15秒视频与多镜头叙事
Wan 2.6正式发布,带来15秒视频生成、智能多镜头叙事、增强唇形同步等突破性功能。
Wan AI Team
Wan AI

Wan 2.6是通义万相系列的一次关键迭代,核心升级集中在15秒长视频、多镜头叙事和唇形同步三个方向。
15秒视频生成
上一代Wan 2.5最长输出5秒。Wan 2.6将上限提至15秒,是国内AI视频单次生成最长时长。技术上,团队重构了时序建模模块,使模型在更长跨度上保持运动连贯和画面稳定。实测15秒视频末尾帧质量与开头基本一致,未出现常见的画面崩塌或运动漂移。云端生成15秒1080p约需2-4分钟,本地RTX 4090约6-10分钟(取决于是否启用量化)。
多镜头叙事
这是Wan 2.6最具差异化的能力。传统AI视频生成器只输出单镜头,多角度叙事需手动拼接。Wan 2.6内置镜头规划:输入一段完整的场景剧本,模型自动拆解为远景、中景、特写等镜头,过渡自然,角色外观和光照跨镜头一致。技术上,模型内部维护了跨镜头语义状态向量,记录角色特征与场景属性,确保叙事连贯性。这意味着你可以直接写一段完整剧情,而不需要逐镜头手动指定。
唇形同步改进
基于Wan 2.5的多模态架构,2.6在精度和自然度上有明显提升:音素到视素映射更精细,支持更多语言的发音模式;口型与眉眼等微表情联动更协调,说话时面部其他区域有自然的联动反应;长语音段落中口型一致性更稳定,不再后半段逐渐走形。该功能对虚拟主播、数字人营销和教育视频尤为实用。
与Wan 2.5的定量差异
画质提升约15-20%(基于内部FID评分),运动流畅度提升约30%,推理效率提升约25%。参数量14B不变,API完全兼容,现有项目升级只需替换模型权重文件。


