Wan2.2

Wan: Open and Advanced Large-Scale Video Generative Models

我们荣幸地推出Wan2.2，这是我们基础视频模型的重大升级版本。在Wan2.2中，我们重点融入了以下创新：

👍 高效MoE架构：Wan2.2将混合专家（Mixture-of-Experts, MoE）架构引入视频扩散模型。通过使用专门的强大专家模型分离跨时间步的去噪过程，在保持相同计算成本的同时，显著提升了整体模型容量。
👍 电影级美学：Wan2.2整合了精心筛选的美学数据，并附有详细的光照、构图、对比度、色调等标签。这使得电影风格生成更加精准可控，便于创建符合个性化审美偏好的视频内容。
👍 复杂运动生成：与Wan2.1相比，Wan2.2的训练数据规模大幅增加，图像数量增加65.6%，视频数量增加83.2%。这种数据扩展显著增强了模型在运动、语义和美学等多个维度的泛化能力，在所有开源和闭源模型中均达到顶尖性能。
👍 高效高清混合TI2V：Wan2.2开源了基于先进Wan2.2-VAE构建的5B模型，该VAE实现了16×16×4的压缩比。此模型支持720P分辨率、24fps的文本到视频（text-to-video）和图像到视频（image-to-video）生成，并且可在消费级显卡（如4090）上运行。它是目前速度最快的720P@24fps模型之一，能够同时服务于工业界和学术界。

本仓库包含我们的T2V-A14B模型，支持生成480P和720P分辨率的5秒视频。该模型采用混合专家（MoE）架构，视频生成质量卓越。在我们新的Wan-Bench 2.0基准测试中，该模型在大多数关键评估维度上均超越了领先的商业模型。

视频演示

🔥 最新动态！！

2025年7月28日：👋 我们已发布 Wan2.2 的推理代码和模型权重。

社区成果

如果您的研究或项目基于 Wan2.1 或 Wan2.2 开发，欢迎与我们分享，以便我们向更广泛的社区展示您的成果。

📑 待办清单

Wan2.2 文本转视频
- A14B 和 14B 模型的多GPU推理代码
- A14B 和 14B 模型的检查点
- ComfyUI 集成
- Diffusers 集成
Wan2.2 图像转视频
- A14B 模型的多GPU推理代码
- A14B 模型的检查点
- ComfyUI 集成
- Diffusers 集成
Wan2.2 文本-图像转视频
- 5B 模型的多GPU推理代码
- 5B 模型的检查点
- ComfyUI 集成
- Diffusers 集成

运行 Wan2.2

安装

克隆仓库：

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

安装依赖项：

# Ensure torch >= 2.4.0
pip install -r requirements.txt

模型下载

模型名称	下载链接	描述
T2V-A14B	🤗 Huggingface 🤖 ModelScope	文本转视频MoE模型，支持480P和720P
I2V-A14B	🤗 Huggingface 🤖 ModelScope	图像转视频MoE模型，支持480P和720P
TI2V-5B	🤗 Huggingface 🤖 ModelScope	高压缩VAE，集文本转视频与图像转视频于一体，支持720P

💡注意： TI2V-5B模型支持以24 FPS生成720P视频。

使用huggingface-cli下载模型：

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

使用 modelscope-cli 下载模型：

pip install modelscope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B

运行文本转视频生成

本仓库支持Wan2.2-T2V-A14B文本转视频模型，并可同时支持480P和720P分辨率的视频生成。

(1) 不使用提示词扩展

为便于实现，我们将从一个跳过提示词扩展步骤的基础版本推理流程开始。

单GPU推理

python generate.py  --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

💡 此命令可在至少拥有 80GB VRAM 的 GPU 上运行。

💡 若遇到 OOM（内存不足）问题，可使用 --offload_model True、--convert_model_dtype 和 --t5_cpu 选项来减少 GPU 内存占用。

使用 FSDP + DeepSpeed Ulysses 进行多 GPU 推理

我们使用 PyTorch FSDP 和 DeepSpeed Ulysses 来加速推理。

torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

(2) 使用提示词扩展

扩展提示词可以有效丰富生成视频中的细节，进一步提升视频质量。因此，我们建议启用提示词扩展功能。我们提供以下两种提示词扩展方法：

使用Dashscope API进行扩展。
- 提前申请dashscope.api_key（英文 | 中文）。
- 配置环境变量DASH_API_KEY以指定Dashscope API密钥。对于阿里云国际站用户，还需将环境变量DASH_API_URL设置为'https://dashscope-intl.aliyuncs.com/api/v1'。更详细的说明，请参考[Dashscope文档](https://www.alibabacloud.com/help/en/model-studio/developer-reference/use-qwen-by-calling-api?spm=a2c63.p38356.0.i1)。
- 文本转视频任务使用qwen-plus模型，图像转视频任务使用qwen-vl-max模型。
- 您可以通过参数--prompt_extend_model修改用于扩展的模型。例如：

DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py  --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'

使用本地模型进行扩展。
- 本扩展默认使用 HuggingFace 上的 Qwen 模型。用户可根据可用 GPU 内存大小选择 Qwen 模型或其他模型。
- 对于文本到视频任务，您可以使用 Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct 和 Qwen/Qwen2.5-3B-Instruct 等模型。
- 对于图像到视频任务，您可以使用 Qwen/Qwen2.5-VL-7B-Instruct 和 Qwen/Qwen2.5-VL-3B-Instruct 等模型。
- 通常，更大的模型能提供更好的扩展效果，但需要更多的 GPU 内存。
- 您可以通过参数 --prompt_extend_model 修改用于扩展的模型，该参数允许您指定本地模型路径或 Hugging Face 模型。例如：

torchrun --nproc_per_node=8 generate.py  --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'

使用 Diffusers 运行

import torch
import numpy as np
from diffusers import WanPipeline, AutoencoderKLWan
from diffusers.utils import export_to_video, load_image

dtype = torch.bfloat16
device = "cuda:2"
vae = AutoencoderKLWan.from_pretrained("Wan-AI/Wan2.2-T2V-A14B-Diffusers", subfolder="vae", torch_dtype=torch.float32)
pipe = WanPipeline.from_pretrained("Wan-AI/Wan2.2-T2V-A14B-Diffusers", vae=vae, torch_dtype=dtype)
pipe.to(device)

height = 720
width = 1280

prompt = "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
negative_prompt = "色调艳丽，过曝，静态，细节模糊不清，字幕，风格，作品，画作，画面，静止，整体发灰，最差质量，低质量，JPEG压缩残留，丑陋的，残缺的，多余的手指，画得不好的手部，画得不好的脸部，畸形的，毁容的，形态畸形的肢体，手指融合，静止不动的画面，杂乱的背景，三条腿，背景人很多，倒着走"
output = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    height=height,
    width=width,
    num_frames=81,
    guidance_scale=4.0,
    guidance_scale_2=3.0,
    num_inference_steps=40,
).frames[0]
export_to_video(output, "t2v_out.mp4", fps=16)

💡注意：此模型需要当前仅在 diffusers 主分支中可用的功能。PyPI 上的最新稳定版本尚未包含这些更新。要使用此模型，请从源代码安装该库：
pip install git+https://github.com/huggingface/diffusers    

不同 GPU 上的计算效率

我们在下表中测试了不同 Wan2.2 模型在不同 GPU 上的计算效率。结果以 总时间（秒）/ 峰值 GPU 内存（GB） 的格式呈现。

此表中测试的参数设置如下： (1) 多 GPU：14B：--ulysses_size 4/8 --dit_fsdp --t5_fsdp，5B：--ulysses_size 4/8 --offload_model True --convert_model_dtype --t5_cpu；单 GPU：14B：--offload_model True --convert_model_dtype，5B：--offload_model True --convert_model_dtype --t5_cpu （--convert_model_dtype 将模型参数类型转换为 config.param_dtype）； (2) 分布式测试利用内置的 FSDP 和 Ulysses 实现，在 Hopper 架构 GPU 上部署了 FlashAttention3； (3) 测试运行时未使用 --use_prompt_extend 标志； (4) 报告的结果是预热阶段后采集的多个样本的平均值。

Wan2.2 介绍

Wan2.2 在 Wan2.1 的基础上，在生成质量和模型能力方面有显著提升。此次升级由一系列关键技术创新推动，主要包括混合专家（Mixture-of-Experts, MoE）架构、升级的训练数据以及高压缩视频生成。

（1）混合专家（Mixture-of-Experts, MoE）架构

Wan2.2 将混合专家（Mixture-of-Experts, MoE）架构引入视频生成扩散模型。MoE 在大型语言模型中已被广泛验证为一种高效方法，能够在几乎不增加推理成本的情况下增加模型总参数量。在 Wan2.2 中，A14B 模型系列采用了专为扩散模型去噪过程定制的双专家设计：一个高噪声专家用于早期阶段，专注于整体布局；一个低噪声专家用于后期阶段，细化视频细节。每个专家模型拥有约 14B 参数，因此总参数量达 27B，但每一步仅激活 14B 参数，使得推理计算量和 GPU 内存占用几乎保持不变。

两个专家之间的切换点由信噪比（signal-to-noise ratio, SNR）决定，该指标随着去噪步骤 $t$ 的增加而单调递减。在去噪过程开始时， $t$ 较大且噪声水平较高，因此 SNR 处于最小值，记为 ${SNR}_{min}$ 。在此阶段，高噪声专家被激活。我们定义一个对应于 ${SNR}_{min}$ 一半的阈值步骤 ${t}_{moe}$ ，当 $t<{t}_{moe}$ 时切换到低噪声专家。

为验证 MoE 架构的有效性，我们基于验证损失曲线比较了四种设置。基线 Wan2.1 模型未采用 MoE 架构。在基于 MoE 的变体中，Wan2.1 & High-Noise Expert 重用 Wan2.1 模型作为低噪声专家，同时使用 Wan2.2 的高噪声专家；而 Wan2.1 & Low-Noise Expert 则使用 Wan2.1 作为高噪声专家，并采用 Wan2.2 的低噪声专家。Wan2.2 (MoE)（我们的最终版本）实现了最低的验证损失，表明其生成的视频分布最接近真实数据，并表现出更优的收敛性。

（2）高效高清混合文本/图像到视频（TI2V）

为实现更高效的部署，Wan2.2 还探索了高压缩设计。除了 27B MoE 模型外，还发布了一个 5B 密集模型，即 TI2V-5B。它由高压缩的 Wan2.2-VAE 提供支持，该 VAE 实现了 $T\times H\times W$ 为 $4\times16\times16$ 的压缩比，将整体压缩率提高到 64，同时保持高质量的视频重建。通过额外的分块层，TI2V-5B 的总压缩比达到 $4\times32\times32$ 。在没有特定优化的情况下，TI2V-5B 可以在单个消费级 GPU 上在 9 分钟内生成 5 秒的 720P 视频，跻身最快的 720P@24fps 视频生成模型之列。该模型还在一个统一框架内原生支持文本到视频和图像到视频任务，涵盖学术研究和实际应用。

与现有最佳模型（SOTA）的比较

我们在新的 Wan-Bench 2.0 上比较了 Wan2.2 与领先的闭源商业模型，从多个关键维度评估性能。结果表明，Wan2.2 实现了优于这些领先模型的性能。

引用说明

如果您觉得我们的工作对您有所帮助，请引用我们的成果。

@article{wan2025,
      title={Wan: Open and Advanced Large-Scale Video Generative Models}, 
      author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
      journal = {arXiv preprint arXiv:2503.20314},
      year={2025}
}

许可协议

本仓库中的模型采用 Apache 2.0 许可协议授权。我们对您生成的内容不主张任何权利，授予您使用这些内容的自由，同时确保您的使用符合本许可协议的规定。您对模型的使用负全部责任，不得分享任何违反适用法律、对个人或群体造成伤害、传播用于伤害目的的个人信息、散布错误信息或针对弱势群体的内容。有关限制的完整列表和您的权利详情，请参阅许可协议全文。

致谢

我们要感谢 SD3、Qwen、umt5-xxl、diffusers 和 HuggingFace 仓库的贡献者们所做的开放研究。

联系我们

如果您想给我们的研究或产品团队留言，欢迎加入我们的 Discord 或微信群！