Wan2.2-S2V-14B: 音频驱动电影级视频生成

本仓库包含Wan2.2-S2V-14B模型，专为音频驱动电影级视频生成而设计。该模型在以下论文中提出： Wan-S2V: 音频驱动电影级视频生成

摘要（Wan-S2V 论文）

当前最先进的（SOTA）音频驱动角色动画方法在主要涉及语音和歌唱的场景中表现出良好性能。然而，在更复杂的影视制作中，这些方法往往存在不足，因为影视制作需要精细的角色互动、逼真的身体动作和动态的镜头运镜等复杂元素。为了解决实现电影级角色动画这一长期存在的挑战，我们提出了一种基于 Wan 的音频驱动模型，称为 Wan-S2V。与现有方法相比，我们的模型在电影场景中实现了显著增强的表现力和真实感。我们进行了大量实验，将我们的方法与 Hunyuan-Avatar 和 Omnihuman 等前沿模型进行基准测试。实验结果一致表明，我们的方法显著优于这些现有解决方案。此外，我们还通过在长视频生成和精确视频唇形同步编辑中的应用，探索了我们方法的多功能性。

Wan: 开放且先进的大规模视频生成模型

我们很高兴推出Wan2.2，这是我们基础视频模型的重大升级。Wan2.2 重点融入了以下创新：

👍 高效 MoE 架构：Wan2.2 将混合专家（Mixture-of-Experts, MoE）架构引入视频扩散模型。通过使用专门的强大专家模型分离跨时间步的去噪过程，在保持相同计算成本的同时，扩大了整体模型容量。
👍 电影级美学：Wan2.2 整合了精心筛选的美学数据，包含照明、构图、对比度、色调等详细标签。这使得电影风格生成更加精确可控，有助于创建符合自定义美学偏好的视频。
👍 复杂动作生成：与 Wan2.1 相比，Wan2.2 在显著更大规模的数据集上进行训练，图像数量增加 65.6%，视频数量增加 83.2%。这种扩展显著增强了模型在动作、语义和美学等多个维度的泛化能力，在所有开源和闭源模型中均达到顶尖性能。
👍 高效高清混合 TI2V：Wan2.2 开源了一个 5B 模型，该模型基于我们先进的 Wan2.2-VAE 构建，实现了 16×16×4 的压缩比。该模型支持 720P 分辨率、24fps 的文本到视频和图像到视频生成，并且可以在 4090 等消费级显卡上运行。它是目前速度最快的 720P@24fps 模型之一，能够同时服务于工业界和学术界。

视频演示

您的浏览器不支持 video 标签。

🔥 最新动态！！

2025年8月26日：🎵 我们正式推出**Wan2.2-S2V-14B**——一款音频驱动的电影级视频生成模型，包含推理代码、模型权重及技术报告！现在您可以通过 wan.video、ModelScope Gradio 或 HuggingFace Gradio 体验该模型！
2025年7月28日：👋 我们已基于 TI2V-5B 模型开放 HF space，欢迎体验！
2025年7月28日：👋 Wan2.2 已集成至 ComfyUI（中文 | 英文），欢迎体验！
2025年7月28日：👋 Wan2.2 的 T2V、I2V 和 TI2V 功能已集成至 Diffusers（T2V-A14B | I2V-A14B | TI2V-5B），欢迎试用！
2025年7月28日：👋 我们已发布 Wan2.2 的推理代码与模型权重。

社区作品

如果您的研究或项目基于 Wan2.1 或 Wan2.2 开发，且希望更多人了解它，请告知我们。

DiffSynth-Studio 为 Wan 2.2 提供全面支持，包括低 GPU 内存逐层卸载、FP8 量化、序列并行、LoRA 训练及全量训练。
Kijai's ComfyUI WanVideoWrapper 是 ComfyUI 中 Wan 模型的替代实现。由于其专注于 Wan 模型，能够优先应用前沿优化和热门研究特性，而这些特性往往因 ComfyUI 结构较为固定而难以快速集成。

📑 任务清单

Wan2.2-S2V 语音转视频
- Wan2.2-S2V 推理代码
- Wan2.2-S2V-14B 模型权重文件
- ComfyUI 集成
- Diffusers 集成

运行 Wan2.2

安装

克隆仓库：

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

安装依赖项：

# Ensure torch >= 2.4.0
# If the installation of `flash_attn` fails, try installing the other packages first and install `flash_attn` last
pip install -r requirements.txt

模型下载

模型名称	下载链接	描述信息
T2V-A14B	🤗 Huggingface 🤖 ModelScope	文本转视频MoE模型，支持480P及720P分辨率
I2V-A14B	🤗 Huggingface 🤖 ModelScope	图像转视频MoE模型，支持480P及720P分辨率
TI2V-5B	🤗 Huggingface 🤖 ModelScope	高压缩VAE，融合文本转视频与图像转视频功能，支持720P分辨率
S2V-14B	🤗 Huggingface 🤖 ModelScope	语音转视频模型，支持480P及720P分辨率

使用huggingface-cli下载模型：

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-S2V-14B --local-dir ./Wan2.2-S2V-14B

使用 modelscope-cli 下载模型：

pip install modelscope
modelscope download Wan-AI/Wan2.2-S2V-14B --local_dir ./Wan2.2-S2V-14B

运行语音转视频生成

本仓库支持 Wan2.2-S2V-14B 语音转视频模型，可同时支持 480P 和 720P 分辨率的视频生成。

单 GPU 语音转视频推理

python generate.py  --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --offload_model True --convert_model_dtype --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard."  --image "examples/i2v_input.JPG" --audio "examples/talk.wav"
# Without setting --num_clip, the generated video length will automatically adjust based on the input audio length

💡 此命令可在至少拥有80GB VRAM的GPU上运行。

采用FSDP + DeepSpeed Ulysses的多GPU推理

torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard." --image "examples/i2v_input.JPG" --audio "examples/talk.wav"

姿态 + 音频驱动生成

torchrun --nproc_per_node=8 generate.py --task s2v-14B --size 1024*704 --ckpt_dir ./Wan2.2-S2V-14B/ --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "a person is singing" --image "examples/pose.png" --audio "examples/sing.MP3" --pose_video "./examples/pose.mp4"

💡在语音转视频任务中，size参数表示生成视频的面积，其宽高比遵循原始输入图像的宽高比。

💡该模型可以根据音频输入，结合参考图像和可选的文本提示词来生成视频。

💡--pose_video参数启用姿态驱动生成功能，允许模型在生成与音频输入同步的视频时，遵循特定的姿态序列。

💡--num_clip参数控制生成的视频片段数量，有助于快速预览，缩短生成时间。

不同GPU上的计算效率

我们在下表中测试了不同Wan2.2模型在不同GPU上的计算效率。结果以总时间（秒）/峰值GPU内存（GB） 的格式呈现。

本表格中测试的参数设置如下： (1) 多GPU：14B：--ulysses_size 4/8 --dit_fsdp --t5_fsdp，5B：--ulysses_size 4/8 --offload_model True --convert_model_dtype --t5_cpu；单GPU：14B：--offload_model True --convert_model_dtype，5B：--offload_model True --convert_model_dtype --t5_cpu （--convert_model_dtype将模型参数类型转换为config.param_dtype）； (2) 分布式测试利用内置的FSDP和Ulysses实现，并在Hopper架构GPU上部署了FlashAttention3； (3) 测试运行时未使用--use_prompt_extend标志； (4) 报告的结果是预热阶段后采集的多个样本的平均值。

Wan2.2介绍

Wan2.2在Wan2.1的基础上，显著提升了生成质量和模型能力。此次升级由一系列关键技术创新推动，主要包括混合专家（Mixture-of-Experts, MoE）架构、升级的训练数据以及高压缩视频生成。

(1) 混合专家（Mixture-of-Experts, MoE）架构

Wan2.2将混合专家（Mixture-of-Experts, MoE）架构引入视频生成扩散模型。MoE在大型语言模型中已被广泛验证为一种高效方法，能够在几乎不增加推理成本的情况下增加模型总参数量。在Wan2.2中，A14B模型系列采用了专为扩散模型去噪过程设计的双专家结构：一个是用于早期阶段的高噪声专家，专注于整体布局；另一个是用于后期阶段的低噪声专家，负责优化视频细节。每个专家模型拥有约140亿参数，因此总参数量达到270亿，但每一步仅有140亿激活参数，使得推理计算量和GPU内存占用几乎保持不变。

两个专家之间的切换点由信噪比（SNR）决定，该指标随着去噪步骤 $t$ 的增加而单调递减。在去噪过程开始时， $t$ 较大，噪声水平较高，因此SNR处于最小值，记为 ${SNR}_{min}$ 。在此阶段，高噪声专家被激活。我们定义一个对应于 ${SNR}_{min}$ 一半的阈值步骤 ${t}_{moe}$ ，当 $t<{t}_{moe}$ 时，切换到低噪声专家。

为了验证MoE架构的有效性，我们基于验证损失曲线比较了四种设置。基线Wan2.1模型未采用MoE架构。在基于MoE的变体中，Wan2.1 & High-Noise Expert将Wan2.1模型复用为低噪声专家，同时使用Wan2.2的高噪声专家；而Wan2.1 & Low-Noise Expert则将Wan2.1用作高噪声专家，并采用Wan2.2的低噪声专家。Wan2.2 (MoE)（我们的最终版本）实现了最低的验证损失，表明其生成的视频分布最接近真实数据，并表现出更优的收敛性。

(2) 高效高清混合文本/图像转视频（TI2V）

为了实现更高效的部署，Wan2.2还探索了高压缩设计。除了270亿参数的MoE模型外，还发布了一个50亿参数的密集模型，即TI2V-5B。它由高压缩的Wan2.2-VAE提供支持，该VAE实现了 $T\times H\times W$ 为 $4\times16\times16$ 的压缩比，将整体压缩率提高到64，同时保持高质量的视频重建。通过额外的分块层，TI2V-5B的总压缩比达到 $4\times32\times32$ 。在没有特定优化的情况下，TI2V-5B在单个消费级GPU上不到9分钟即可生成一段5秒的720P视频，跻身最快的720P@24fps视频生成模型之列。该模型还在单一统一框架中原生支持文本转视频和图像转视频任务，兼顾学术研究和实际应用。

与现有最佳模型（SOTA）的比较

我们在新的Wan-Bench 2.0上，将Wan2.2与领先的闭源商业模型进行了比较，从多个关键维度评估性能。结果表明，Wan2.2的性能优于这些领先模型。

引用说明

如果您觉得我们的研究工作对您有所帮助，敬请引用。

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}


@article{wan2025s2v,
   title={Wan-S2V:Audio-Driven Cinematic Video Generation},
  author={Xin Gao, Li Hu, Siqi Hu, Mingyang Huang, Chaonan Ji, Dechao Meng, Jinwei Qi, Penchong Qiao, Zhen Shen, Yafei Song, Ke Sun, Linrui Tian, Guangyuan Wang, Qi Wang, Zhongjian Wang, Jiayu Xiao, Sheng Xu, Bang Zhang, Peng Zhang, Xindi Zhang, Zhe Zhang, Jingren Zhou, Lian Zhuo},
   journal={arXiv preprint arXiv:2508.18621},
   year={2025}
}

许可协议

本仓库中的模型采用 Apache 2.0 许可协议进行授权。我们对您生成的内容不主张任何权利，在确保您的使用符合本许可协议规定的前提下，授予您使用这些内容的自由。您对模型的使用承担全部责任，不得分享任何违反适用法律、对个人或群体造成伤害、传播用于伤害目的的个人信息、散布错误信息或针对弱势群体的内容。有关限制的完整列表以及您的权利详情，请参阅许可协议的全文。

致谢

我们要感谢 SD3、Qwen、umt5-xxl、diffusers 和 HuggingFace 仓库的贡献者们，感谢他们的开放研究成果。

联系我们

如果您想给我们的研究或产品团队留言，欢迎加入我们的 Discord 或微信群！