💜 Wan | 🖥️ GitHub | 🤗 Hugging Face | 🤖 ModelScope | 📑 技术报告 | 📑 博客 | 💬 微信交流群 | 📖 Discord
我们非常高兴地推出Wan2.2——我们基础视频模型的重大升级版本。在Wan2.2中,我们重点融入了以下创新:
👍 高效的MoE架构:Wan2.2将混合专家(Mixture-of-Experts, MoE)架构引入视频扩散模型。通过利用专门的强大专家模型分离跨时间步的去噪过程,在保持相同计算成本的同时,显著提升了整体模型容量。
👍 电影级美学表现:Wan2.2整合了精心筛选的美学数据,并配有关于光线、构图、对比度、色调等的详细标签。这使得电影风格生成更加精准可控,便于创作具有个性化美学偏好的视频内容。
👍 复杂动作生成能力:与Wan2.1相比,Wan2.2的训练数据规模大幅增加,图像数据量提升+65.6%,视频数据量提升+83.2%。这种数据扩展显著增强了模型在动作、语义和美学等多个维度的泛化能力,在所有开源和闭源模型中均达到顶尖性能。
👍 高效高清混合TI2V:Wan2.2开源了一个5B参数模型,该模型基于我们先进的Wan2.2-VAE构建,实现了16×16×4的压缩比。此模型支持文本到视频(text-to-video)和图像到视频(image-to-video)两种生成方式,分辨率可达720P,帧率24fps,且能在消费级显卡(如4090)上运行。它是目前速度最快的720P@24fps模型之一,能够同时服务于工业界和学术界。
本仓库包含我们的T2V-A14B模型,支持生成5秒时长、480P和720P两种分辨率的视频。该模型基于混合专家(Mixture-of-Experts, MoE)架构构建,视频生成质量卓越。在我们新的基准测试Wan-Bench 2.0上,该模型在大多数关键评估维度上均超越了领先的商业模型。
如果您的研究或项目基于 Wan2.1 或 Wan2.2 开发,欢迎与我们分享,以便我们向更广泛的社区展示您的成果。
克隆仓库:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2安装依赖项:
# Ensure torch >= 2.4.0
pip install -r requirements.txt| 模型名称 | 下载链接 | 描述 |
|---|---|---|
| T2V-A14B | 🤗 Huggingface 🤖 ModelScope | 文本生成视频MoE模型,支持480P和720P |
| I2V-A14B | 🤗 Huggingface 🤖 ModelScope | 图像生成视频MoE模型,支持480P和720P |
| TI2V-5B | 🤗 Huggingface 🤖 ModelScope | 高压缩VAE,兼具文本生成视频与图像生成视频功能,支持720P |
💡注意: TI2V-5B模型支持以24 FPS生成720P视频。
使用huggingface-cli下载模型:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B使用 modelscope-cli 下载模型:
pip install modelscope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B本仓库支持 Wan2.2-T2V-A14B 文本到视频模型,可同时支持 480P 和 720P 分辨率的视频生成。
为便于实现,我们将从一个基础版本的推理流程开始,该版本将跳过提示词扩展步骤。
python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."💡 此命令可在显存至少为 80GB 的 GPU 上运行。
💡 若遇到 OOM(内存不足)问题,可使用
--offload_model True、--convert_model_dtype和--t5_cpu选项来减少 GPU 内存占用。
基于 FSDP + DeepSpeed Ulysses 的多 GPU 推理
我们使用 PyTorch FSDP 和 DeepSpeed Ulysses 来加速推理过程。
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."扩展提示词可以有效丰富生成视频中的细节,进一步提升视频质量。因此,建议启用提示词扩展功能。我们提供以下两种提示词扩展方法:
dashscope.api_key(英文 | 中文)。DASH_API_KEY以指定Dashscope API密钥。对于阿里云国际站用户,还需将环境变量DASH_API_URL设置为'https://dashscope-intl.aliyuncs.com/api/v1'。更详细的说明,请参考[Dashscope文档](https://www.alibabacloud.com/help/en/model-studio/developer-reference/use-qwen-by-calling-api?spm=a2c63.p38356.0.i1)。qwen-plus模型,图像转视频任务使用qwen-vl-max模型。--prompt_extend_model修改用于扩展的模型。例如:DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'采用本地模型进行扩展。
Qwen/Qwen2.5-14B-Instruct、Qwen/Qwen2.5-7B-Instruct 和 Qwen/Qwen2.5-3B-Instruct 等模型。Qwen/Qwen2.5-VL-7B-Instruct 和 Qwen/Qwen2.5-VL-3B-Instruct 等模型。--prompt_extend_model 修改用于扩展的模型,该参数支持指定本地模型路径或 Hugging Face 模型。例如:torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'我们在下表中测试了不同Wan2.2模型在不同GPU上的计算效率。结果以总时间(秒)/峰值GPU内存(GB) 的格式呈现。
本表格所示测试的参数设置如下: (1) 多GPU:14B:
--ulysses_size 4/8 --dit_fsdp --t5_fsdp,5B:--ulysses_size 4/8 --offload_model True --convert_model_dtype --t5_cpu;单GPU:14B:--offload_model True --convert_model_dtype,5B:--offload_model True --convert_model_dtype --t5_cpu(--convert_model_dtype 将模型参数类型转换为 config.param_dtype); (2) 分布式测试利用内置的FSDP和Ulysses实现,在Hopper架构GPU上部署了FlashAttention3; (3) 测试运行时未使用--use_prompt_extend标志; (4) 报告的结果是预热阶段后多次采样的平均值。
Wan2.2 在Wan2.1的基础上,在生成质量和模型能力方面有显著提升。此次升级由一系列关键技术创新驱动,主要包括混合专家(MoE)架构、升级的训练数据以及高压缩视频生成。
Wan2.2将混合专家(MoE)架构引入视频生成扩散模型。MoE在大型语言模型中已被广泛验证为一种在保持推理成本几乎不变的情况下增加模型总参数量的高效方法。在Wan2.2中,A14B模型系列采用了针对扩散模型去噪过程定制的双专家设计:一个高噪声专家用于早期阶段,专注于整体布局;一个低噪声专家用于后期阶段,细化视频细节。每个专家模型拥有约14B参数,因此总参数量为27B,但每一步仅激活14B参数,使得推理计算量和GPU内存占用几乎保持不变。
两个专家之间的切换点由信噪比(SNR)决定,该指标随着去噪步骤的增加而单调递减。在去噪过程开始时,较大且噪声水平较高,因此SNR处于最小值,记为。在此阶段,高噪声专家被激活。我们定义一个对应于一半的阈值步骤,当时切换到低噪声专家。
为了验证MoE架构的有效性,我们基于验证损失曲线比较了四种设置。基线Wan2.1模型未采用MoE架构。在基于MoE的变体中,Wan2.1 & High-Noise Expert 将Wan2.1模型复用为低噪声专家,同时使用Wan2.2的高噪声专家;而Wan2.1 & Low-Noise Expert 则将Wan2.1用作高噪声专家,并采用Wan2.2的低噪声专家。Wan2.2(MoE)(我们的最终版本)实现了最低的验证损失,表明其生成的视频分布最接近真实数据,并表现出更优的收敛性。
为了实现更高效的部署,Wan2.2还探索了高压缩设计。除了27B的MoE模型外,还发布了5B的密集型模型,即TI2V-5B。它由高压缩的Wan2.2-VAE提供支持,该VAE实现了为的压缩比,将整体压缩率提高到64,同时保持高质量的视频重建。通过额外的分块层,TI2V-5B的总压缩比达到。在没有特定优化的情况下,TI2V-5B在单个消费级GPU上生成5秒720P视频的时间可控制在9分钟以内,跻身最快的720P@24fps视频生成模型之列。该模型还在一个统一的框架内原生支持文本到视频和图像到视频任务,涵盖学术研究和实际应用场景。
我们在新的Wan-Bench 2.0上,将Wan2.2与领先的闭源商业模型进行了比较,从多个关键维度评估性能。结果表明,Wan2.2相较于这些领先模型取得了更优异的性能。
如果您觉得我们的工作对您有所帮助,请引用我们的成果。
@article{wan2025,
title={Wan: Open and Advanced Large-Scale Video Generative Models},
author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
journal = {arXiv preprint arXiv:2503.20314},
year={2025}
}本仓库中的模型采用 Apache 2.0 许可协议授权。对于您生成的内容,我们不主张任何权利,您可自由使用这些内容,但需确保您的使用符合本许可协议的规定。您对模型的使用行为负全部责任,不得分享任何违反适用法律、对个人或群体造成伤害、传播用于伤害目的的个人信息、散布错误信息或针对弱势群体的内容。有关权利的完整限制和详细说明,请参阅许可协议全文。
感谢 SD3、Qwen、umt5-xxl、diffusers 和 HuggingFace 仓库的贡献者们所做的开源研究工作。