Wan 2.2 MoEアーキテクチャ解説
Wan 2.2を動かすMixture of Expertsアーキテクチャの技術的深掘り。計算を50%削減。
AI Research
Wan AI

Wan 2.2は、動画生成に画期的なMixture of Experts(MoE)アーキテクチャを導入し、効率を劇的に向上させました。この技術的革新により、AI動画生成の民主化が大きく前進しました。
モデルは合計270億のパラメータを持っていますが、任意の生成に対して活性化されるのは140億のみです。このスパースな活性化パターンにより、同等の能力を持つ密なモデル(全パラメータを常時使用)と比較して、計算要件が約50%削減されます。実際のVRAM使用量も大幅に低減され、24GB GPUでの実行が現実的になりました。
アーキテクチャの核心は特殊化されたエキスパートネットワークにあります。例えば、モーション専門のエキスパートは物体の動きと軌道を、照明エキスパートは光源と影の計算を、テクスチャエキスパートは素材の質感表現をそれぞれ担当します。ゲーティングネットワーク(Top-2ルーティング方式)が入力トークンごとに最適なエキスパートを2つ選択し、それらの出力を重み付き合成します。このルーティングは学習により自動最適化されます。
Wan 2.1(密なモデル)との比較では、FVD(Fréchet Video Distance)スコアが15%改善し、推論速度は1.8倍に向上しました。特にモーションの滑らかさと時間的整合性で顕著な改善が見られます。
MoEアーキテクチャのもう一つの利点は拡張性です。新しいエキスパートを追加することで、既存の性能を損なうことなく新しい能力(例:特定の芸術スタイル、新しい物理シミュレーション)を追加できます。この設計哲学は後続のWan 2.5、2.6にも継承され、モデルの進化の基盤となっています。


