技术解析2025-11-206 min 阅读

深入理解Wan 2.5的唇形同步技术

深入解析Wan 2.5的原生多模态架构如何实现与音频输入的完美唇形同步。

A

AI Research

Wan AI

lip-sync-technology-wan-2-5

Wan 2.5在AI视频生成中率先实现了原生唇形同步,不依赖外部音频驱动工具,而是在视频生成过程中直接完成音画对齐。本文拆解其技术原理和实际应用价值。

传统方案的问题

此前业界的做法是先生成视频,再用独立的音频驱动模型(如SadTalker、Wav2Lip)强行修改嘴部区域。这种两阶段方案有几个固有缺陷:嘴部区域与面部其他部分存在明显的风格断裂;驱动模型只修改嘴部像素,不改变脸颊、下巴等区域的联动变形,导致表情僵硬;长时序下口型逐渐失准,尤其在快速语速段落中更为严重。

原生多模态架构

Wan 2.5的做法完全不同。音频信号和视觉信号在同一个Transformer框架内联合处理。音频编码器将语音波形转为音素序列,视觉解码器在生成每一帧时同时参照对应时间戳的音素特征。这意味着口型不是后期贴上去的,而是从生成阶段就和语音对齐。

音素到视素的映射

模型内部维护了一套音素-视素(phoneme-viseme)映射表,覆盖中文、英文、日文等主流语言的发音模式。例如/b/、/p/、/m/对应闭唇视素,/a/对应张嘴视素。映射不是硬编码的,而是通过大规模语音-视频对训练学习得到。模型还学到了协同发音(coarticulation)规律——连续音素之间口型会平滑过渡而非跳变。

面部联动

真人说话时不只嘴巴在动。Wan 2.5的架构让口型运动自然带动脸颊肌肉收缩、下巴开合、眉毛微动。说到强调词时眉毛会略微上挑,发/u/音时脸颊会收紧。这些细节让生成结果更接近真人,能通过恐怖谷考验。

应用场景

虚拟主播:输入文案语音,直接生成说话视频,不需要后期套口型。数字人营销:品牌数字代言人可以快速生成多语言版本。教育内容:AI教师讲解视频批量制作。配音本地化:同一角色自动适配不同语言的口型。

Wan 2.6和2.7在此基础上进一步提升了长时序稳定性和多语言准确度。

标签

#WanAI#AIVideo#technology#Tutorial#OpenSource
分享:
限时活动

准备创作精彩视频了吗?

加入数千名使用Wan AI将创意变为现实的创作者。免费使用,Wan 2.1开源。

$1 免费赠金

25% 充值返利

50次免费生成

立即领取福利

无需信用卡

10M+

Videos

500K+

Users

99.9%

Uptime

24/7

Support