Wan 2.5のリップシンク技術を理解する
Wan 2.5のネイティブマルチモーダルアーキテクチャが音声入力との完璧なリップ同期を可能にする仕組みを深掘り。
AI Research
Wan AI

Wan 2.5は、ネイティブマルチモーダルアーキテクチャを通じてAI動画生成のリップシンクに革命的なアプローチを導入しました。従来のリップシンク技術が抱えていた「口パク感」や「不自然なタイミングのずれ」を根本から解決する技術です。
以前のアプローチが音声と映像を別々のモダリティとして扱い、後処理で合成していたのとは異なり、Wan 2.5はそれらを統一されたTransformerフレームワークで同時に処理します。音声の特徴量と映像のフレーム生成が同一のアテンション機構を共有することで、口の動きと音声の間のミリ秒レベルの正確な同期が可能になります。
この技術は音声入力の音素を分析し、生成プロセス中にリアルタイムで対応するビセム(視覚的な口の形)を生成します。例えば、日本語の「あ」「い」「う」「え」「お」の母音それぞれに対して、適切な口の開き具合と舌の位置が生成されます。さらに、子音の破裂音(「ぱ」「ば」など)では唇の閉じと開きのタイミングが音声と正確に一致します。これにより、不気味の谷を通過する自然な発話が実現します。
対応言語は中国語・英語・日本語を含む主要言語をカバーしており、各言語の音韻体系に最適化された口形モデルを内蔵しています。感情表現にも対応しており、怒りや喜びなどの感情に応じて口の動きの強度が自動調整されます。
この機能により、バーチャルアンカー(AIニュースキャスター)、デジタルヒューマン(カスタマーサポート、受付など)、映画・アニメの吹き替え、多言語教育コンテンツ、企業のプレゼンテーション動画など、幅広いユースケースが実現しました。特に中国のライブコマース業界では、24時間稼働するAIアンカーとして急速に普及しています。


