meituan-longcat/LongCat-Video-Avatar-1.5

LongCat-Video-Avatar-1.5

🚀 模型介绍

我们荣幸地发布 LongCat-Video-Avatar 1.5 版本，这是一款经过升级的开源框架，专注于音频驱动人物视频生成的极致实证优化与生产级就绪能力。该版本在 LongCat-Video 基础模型之上构建，可生成高度稳定的商用级虚拟人视频，支持音频-文本转视频（AT2V）、音频-文本-图像转视频（ATI2V）以及视频续播等原生任务，并能无缝兼容单流与多流音频输入。

核心特性

🌟 升级音频编码器（Whisper-Large）：采用 Whisper-Large 替代 Wav2Vec2，实现更流畅自然的唇部动态效果。
🌟 生产级稳定性：实现精准的唇形同步、全身动作时间稳定性，以及具有严格身份一致性的长视频稳健生成。
🌟 风格化领域泛化：可稳健泛化至动漫、动物等风格，以及多人交互、物体操作等复杂真实场景。
🌟 高效 8 步推理：基于 DMD2 的先进步数蒸馏技术，将推理速度提升至 8 NFE，在保证卓越视觉质量的同时实现经济高效的服务部署。

更多详情，请参阅完整的 LongCat-Video-Avatar-1.5 技术报告。

🌀 预览示例库

LongCat-Video-Avatar 1.5 支持多样化的应用场景，包括广播播报、演艺表演、歌唱演绎、电商营销、多人对话、动画制作以及动物角色生成等。

📊 人工评估

我们针对音频驱动数字人生成任务，专门设计了一套全面的人工评估基准。该基准涵盖6大应用场景（新闻播报、知识教育、日常生活、娱乐演艺、歌唱表演、商业推广）、2种语言（中文/英文）以及2类视觉风格（写实/动画），共包含508组图像-音频源数据对。评估方法如下：（1）主观评估：770名众包评估人员对每个生成视频的逼真度进行1-5分评分，累计完成13,240次评价。（2）客观评估：10位领域专家从物理合理性、音画协调性、时间稳定性及身份一致性四个维度进行结构化质量分析。

评估结果如图所示：（a）专家级客观质量四维度评估（b）与主流商业模型的主观逼真度对比。

💡 快速开始

克隆仓库

git clone --single-branch --branch main https://github.com/meituan-longcat/LongCat-Video
cd LongCat-Video

安装依赖项

# create conda environment
conda create -n longcat-video python=3.10
conda activate longcat-video

# install torch (configure according to your CUDA version)
pip install torch==2.6.0+cu124 torchvision==0.21.0+cu124 torchaudio==2.6.0 --index-url https://download.pytorch.org/whl/cu124

# install flash-attn-2
pip install ninja
pip install psutil
pip install packaging
pip install flash_attn==2.7.4.post1

# install other requirements
pip install -r requirements.txt

# install longcat-video-avatar requirements
conda install -c conda-forge librosa
conda install -c conda-forge ffmpeg
pip install -r requirements_avatar.txt

模型配置中默认启用 FlashAttention-2；您也可以修改模型配置以使用 FlashAttention-3 或 xformers。

⛽️ 模型下载

模型	描述	下载链接
LongCat-Video	基础视频生成	🤗 Huggingface
LongCat-Video-Avatar-1.5	单角色与多角色音频驱动视频生成	🤗 Huggingface

使用 huggingface-cli 下载模型：

pip install "huggingface_hub[cli]"
huggingface-cli download meituan-longcat/LongCat-Video --local-dir ./weights/LongCat-Video
huggingface-cli download meituan-longcat/LongCat-Video-Avatar-1.5 --local-dir ./weights/LongCat-Video-Avatar-1.5

🔑 快速推理

使用提示

唇形同步精度：Audio CFG 在 3–5 之间效果最佳。提高 audio CFG 值可获得更好的同步效果。

提示词优化：较长、描述更丰富的提示词比简短提示词能产生更好的一致性和自然度。我们建议包含丰富细节，例如人物外貌、动作和场景背景（例如："一位留着黑色长发的年轻女子正在说话并微笑，穿着白色上衣，坐在明亮的咖啡馆里"）以获得最佳效果。

减轻重复动作：将参考图像索引（--ref_img_index，默认值为 10）设置在 0 到 24 之间可确保更好的一致性；将其设置为 30 有助于减少重复动作。此外，增加遮罩帧范围（--mask_frame_range，默认值为 3）可进一步帮助减轻重复动作，但过大的值可能会引入伪影。

超分辨率：我们的模型兼容 480P 和 720P，可通过 --resolution 进行控制。

双音频模式：合并模式（将 audio_type 设置为 para）需要两个等长的音频片段，生成的音频通过将两个片段相加获得；串联模式（将 audio_type 设置为 add）不需要等长输入，生成的音频通过将两个片段按顺序串联，并对任何间隙进行静音填充形成，默认情况下 person1 先说话，然后 person2 说话。

模型版本：--model_type avatar-v1.0 使用 wav2vec2 音频编码器（默认）；--model_type avatar-v1.5 使用 Whisper-large-v3 音频编码器，以获得更好的唇形同步质量。

蒸馏模式：添加 --use_distill 以启用蒸馏采样（步骤更少，推理更快）。使用 --model_type avatar-v1.5 时必须启用此模式。

INT8 量化：添加 --use_int8 以加载 INT8 量化的 DiT 模型，从而减少显存占用。仅在使用 --model_type avatar-v1.5 时支持。

单人动画

# Audio-Text-to-Video
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

# Audio-Image-to-Video
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5  --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

# Audio-Text-to-Video and Video-Continuation
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=at2v --input_json=assets/avatar/single_example_1.json --num_segments=5 --ref_img_index=10 --mask_frame_range=3 --use_distill --model_type avatar-v1.5 --use_int8

# Audio-Image-to-Video and Video-Continuation
torchrun --nproc_per_node=2 run_demo_avatar_single_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --stage_1=ai2v --input_json=assets/avatar/single_example_1.json --num_segments=5 --ref_img_index=10 --mask_frame_range=3 --use_distill --model_type avatar-v1.5 --use_int8

多人动画

# Audio-Image-to-Video
torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --use_distill --model_type avatar-v1.5 --use_int8

# Audio-Image-to-Video and Video-Continuation
torchrun --nproc_per_node=2 run_demo_avatar_multi_audio_to_video.py --context_parallel_size=2 --checkpoint_dir=./weights/LongCat-Video-Avatar-1.5 --input_json=assets/avatar/multi_example_1.json --num_segments=5 --ref_img_index=10 --mask_frame_range=3 --use_distill --model_type avatar-v1.5 --use_int8

⚖️ 许可协议

模型权重基于MIT 许可协议发布。

除非另有说明，对本仓库的任何贡献均基于 MIT 许可协议。本许可协议不授予使用美团商标或专利的任何权利。

完整许可文本请参见 LICENSE 文件。

🧠 使用注意事项

本模型并非针对所有可能的下游应用进行专门设计或全面评估。

开发人员应考虑到大型语言模型的已知局限性，包括在不同语言间的性能差异，并在将模型部署到敏感或高风险场景前，仔细评估其准确性、安全性和公平性。开发人员和下游用户有责任了解并遵守与其使用场景相关的所有适用法律法规，包括但不限于数据保护、隐私和内容安全要求。

本模型卡片中的任何内容均不应被解释为修改或限制模型发布所依据的 MIT 许可协议条款。

📖 引用

如果您觉得我们的工作有用，我们恳请您引用我们的成果。

@misc{meituanlongcatteam2025longcatvideoavatar15technicalreport,
      title={LongCat-Video-Avatar 1.5 Technical Report}, 
      author={Meituan LongCat Team},
      year={2026},
      eprint={},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={}, 
}

🙏 致谢

感谢 Wan、UMT5-XXL、Diffusers 和 HuggingFace 代码仓库的贡献者们所开展的开放研究工作。

📞 联系方式

如有任何问题，请通过邮件 longcat-team@meituan.com 与我们联系，或加入我们的微信群。