NVIDIA Cosmos™ 是一个世界基础模型平台,旨在通过使机器能够在机器人技术、自动驾驶和智能空间环境(包括工业和工厂规模的应用)中理解、模拟和与物理世界交互,从而加速物理智能的发展。
Cosmos3 是一系列全模态世界模型的集合,能够从文本、图像、视频和动作轨迹输入的组合中生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理智能应用和研究的基础构建块,涵盖世界理解、世界生成、模拟和具身策略学习。
本模型可用于商业和非商业用途。
模型开发者: NVIDIA
Cosmos3-Nano:
Cosmos3-Super:
Cosmos3-Nano-Policy-DROID:
Cosmos3-Super-Image2Video:
Cosmos3-Super-Text2Image:
本模型基于 OpenMDW1.1 许可协议发布。
全球
物理人工智能:涵盖机器人技术、自动驾驶汽车(AV)以及智能空间环境,包括工业和工厂规模的应用。
Hugging Face:2026年5月31日,通过 https://huggingface.co/collections/nvidia/cosmos3 GitHub:2026年5月31日,通过 https://github.com/nvidia/cosmos
架构类型: Transformer
网络架构: 混合Transformer(Mixture-of-Transformers,MoT)
Cosmos3是一个全模态基础模型,构建于混合Transformer(MoT)架构之上,包含两个互补的Transformer塔:一个用于离散令牌生成的自回归Transformer,以及一个用于连续多模态生成的扩散Transformer。在推理过程中,文本通过标准的下一个令牌自回归解码生成,而非文本模态(如图像、视频、音频和动作)则通过迭代去噪进行合成。这种统一的架构使Cosmos3能够在单一框架内对异构模态进行建模,同时保留每种模态最适合的生成机制。
本模型基于以下项目开发: Cosmos Framework
可训练模型参数数量:
max_tokens=4096+;可请求更长的输出。视频内容将输入的文本描述可视化为一个简短的动画场景,在指定的时间限制内捕捉关键元素。
我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。
运行时引擎:
支持的硬件微架构兼容性:
操作系统:
注意: 仅测试了 BF16 精度。FP4、FP8 和 FP16 等其他精度未获得官方支持。
将基础模型和微调模型集成到 AI 系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试与验证至关重要,这有助于在部署前降低风险、满足技术和功能要求,并确保符合安全与道德标准。
来自内部和外部来源的原始数据经过多阶段的整理、筛选和质量审查,转化为可用于训练的数据。数据采集涵盖多种多模态来源——机器人技术、自动驾驶、工业环境、室内外场景、各种光照和天气条件、摄像机视角、物体类别以及人类活动——以扩大在物理 AI 操作环境中的覆盖范围。自动化筛选管道会移除损坏、重复、低质量和受限制的内容。在预处理阶段,应用元数据分析、启发式规则和模型辅助分类器来标记异常分布和低多样性子集。人工审核对选定数据集、基准构建和目标质量分析的自动化筛选起到补充作用。数据集在模态和任务类别之间保持平衡——视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频迁移、动作条件生成和动作命令生成——以减少狭窄领域的过度代表性。合成和基于模拟的增强补充了对罕见物理交互和边缘情况场景的覆盖。在整个语料库中应用去重和来源跟踪。最终处理后的数据在开始训练前,通过特定于模态的预处理器转换为模型可用的标记化或编码表示。
训练数据集通过多层自动化和人工防护措施,旨在减少各类有害或违反政策内容的存在,这些类别包括武器及与武器相关的指导内容、犯罪策划、儿童性虐待材料(CSAM)、非自愿私密图像(NCII)、涉及未成年人的性内容、骚扰、仇恨言论、亵渎语言、威胁和煽动暴力、自残或自杀相关内容以及血腥暴力。在将数据源纳入训练语料库之前,会对其许可兼容性、来源以及是否符合内部数据治理和安全政策进行审查。自动化筛选管道结合了多种检测策略:针对已知 CSAM 和 NCII 参考数据库的哈希匹配;针对露骨性内容、仇恨言论、暴力、武器图像和其他受限制类别的基于分类器的审核模型;针对文本数据中犯罪策划、威胁和自残短语的基于关键字和正则表达式的筛查;针对源级别风险信号的元数据和来源启发式方法;以及用于发现超出预期分布样本的基于嵌入的异常检测。人工审核和目标审计对选定数据集、基准构建和安全敏感评估的自动化筛选起到补充作用。对于多模态物理 AI 数据(机器人技术、自动驾驶、工业场景),额外的筛选针对无效的动作轨迹、物理上不合理的交互以及不安全的控制序列。合成和模拟生成的数据在纳入前需经过内部验证。训练后应用基准评估和红队测试,以发现世界生成、推理、音频和动作任务中仍然存在的安全漏洞。没有任何大规模数据筛选流程能够保证完全移除所有有害内容;残余风险可能仍然存在,特别是在罕见的边缘情况或开放世界部署环境中。发布后将继续进行持续监控和数据集审查。
数据模态与训练数据规模
| 模态 | 推理数据样本数 | 生成数据样本数 |
|---|---|---|
| 文本 | 2200 万 | 不适用 |
| 图像 | 1900 万 | 7.67 亿 |
| 视频 | 100 万 | 3.48 亿 |
| 音频 | 不适用 | 1.39 亿 |
| 动作 | 不适用 | 800 万 |
按数据集划分的数据收集方法
按数据集划分的标注方法
特性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成和传感器条件数据,这些数据来源于 NVIDIA 自有数据以及公开可用的、商业许可的数据集。这些数据集经过精心筛选,排除了已知的受限制内容,旨在支持构建一个 Omni 模型,该模型能够学习生成和推理动态物理环境中的世界推理和生成任务。
| 数据集 | 样本数量 |
|---|---|
| OpenImage | 120万 |
| Coyo700M | 1亿 |
| YouTube Video | 3.4亿 |
| UMI | 450万 |
| 数据集 | 样本数量 |
|---|---|
| Egocentric | 700万 |
| Nexar | 60万 |
| AgiBot | 20万 |
| HOI | 30万 |
| 数据集 | 样本数量 |
|---|---|
| 使用 HiDream-I1 生成的合成图像 | 1500万 |
| 使用 Qwen-Image-2512 生成的合成图像 | 1400万 |
| 使用 Qwen3-VL 生成的合成文本描述 | 11.15亿 |
各数据集的数据收集方法
各数据集的标注方法
特性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成及传感器条件数据,这些数据来源于 NVIDIA 自有数据以及公开可用的商业许可数据集。这些数据集经过精心筛选,排除了已知的受限内容,旨在支持构建一个 Omni 模型,使其能够学习在世界推理和生成任务中对动态物理环境进行生成和推理。
有关基础模型的详细评估,请参见我们的技术论文。


为获得最佳质量,文本提示词应升采样为特定的 JSON 结构。相关说明和代码可参见 此处。
例如,使用 Opus-4.7 进行提示词升采样:
git clone https://github.com/NVIDIA/cosmos-framework.git packages/cosmos-framework
pip install -e packages/cosmos-framework
export PROMPT_UPSAMPLER_ENDPOINT_URL="https://api.anthropic.com/v1/"
export PROMPT_UPSAMPLER_MODEL_NAME="claude-opus-4-7"
export PROMPT_UPSAMPLER_API_TOKEN="<you_token>"
python -m cosmos_framework.inference.prompt_upsampling \
--input assets/example_original_prompt.txt \
--image-url assets/example_first_frame.png \
--output /tmp/upsampled_posttrain_i2v/ \
--mode posttrain_image2video \
--endpoint-url "${PROMPT_UPSAMPLER_ENDPOINT_URL}" \
--model "${PROMPT_UPSAMPLER_MODEL_NAME}" \
--api-token "${PROMPT_UPSAMPLER_API_TOKEN}" \
--resolution 480 \
--aspect-ratio "16,9" \
--duration 7s为方便起见,assets/example_original_prompt.txt 的 JSON 上采样版本已保存至 assets/example_prompt.json,并用于以下视频生成示例。
docker pull vllm/vllm-omni:cosmos3您可以使用经过发布测试的 vllm-omni 软件包来部署兼容 OpenAI 的 API 推理端点。
在 8xH200、8xH100 或 8xA100 上运行 nvidia/Cosmos3-Super-Image2Video 的推荐 vLLM-Omni 服务配置如下:
vllm serve nvidia/Cosmos3-Super-Image2Video \
--omni \
--host 0.0.0.0 \
--port 8000 \
--cfg-parallel-size 2 \
--ulysses-degree 4 \
--use-hsdp \
--hsdp-shard-size 8 \
--init-timeout 1800使用此配置,在 H200 GPU 上生成 50 步的视频大约需要 55 秒。对于 2xH200,只需使用 --cfg-parallel-size 2 --use-hsdp --hsdp-shard-size 2,生成一个视频大约需要 3 分钟。通过设置 --tensor-parallel-size 还支持张量并行。设置 --enable-layerwise-offload 有助于在内存较少的 GPU 上降低内存使用率。
推理脚本(scripts/)和示例输入(assets/)位于此模型仓库中。使用 Hugging Face CLI 仅下载这些文件夹:
pip install -U "huggingface_hub[cli]"
hf download nvidia/Cosmos3-Super-Image2Video scripts/ assets/ \
--local-dir Cosmos3-Super-Image2Video
cd Cosmos3-Super-Image2Video从下载的仓库根目录运行以下所有命令。
通过调用 vLLM-Omni 端点,从首帧图像和 JSON 格式提示词生成视频:
python scripts/gen_video.py \
--endpoint <endpoint-url> \
--prompt-file assets/example_prompt.json \
--image-path assets/example_first_frame.png \
--output-path scripts/output.mp4或者,作为一个最小化的独立脚本:
import json
import requests
# 1. Read JSON-upsampled prompt (prompt + negative_prompt)
json_prompt = json.load(open("assets/example_prompt.json"))
# 2. Build your API payload
payload = {
"prompt": json_prompt["prompt"],
"negative_prompt": json_prompt["negative_prompt"],
"size": "832x480",
"num_frames": 189,
"fps": 24,
"num_inference_steps": 50,
"guidance_scale": 6.0,
"flow_shift": 5.0,
"extra_params": json.dumps(
{
"use_resolution_template": False,
"use_duration_template": False,
"guardrails": True,
}
),
}
files = {"input_reference": ("input.png", open("assets/example_first_frame.png", "rb"), "image/png")}
# 3. Send the POST request
url = "http://localhost:8000/v1/videos/sync"
print("Sending request to server...")
response = requests.post(url, data=payload, files=files, headers={"Accept": "video/mp4"})
response.raise_for_status()
# 4. Save the returned MP4 bytes
with open("/tmp/cosmos3_i2v.mp4", "wb") as video_file:
video_file.write(response.content)
print("Saved video to /tmp/cosmos3_i2v.mp4")由 assets/example_first_frame.png 生成的示例输出:
Cosmos3-Super-Image2Video 采用 JSON 格式的提示词以获得最佳质量。推荐的方式是使用 cosmos-framework。为方便起见,此处提供一个简单的概念验证脚本。它需要兼容 OpenAI 的 VLM 模型,例如 claude-opus-4.7 和 gpt-5.5。
export PROMPT_UPSAMPLER_API_KEY="..."
python scripts/upsample_prompt.py \
--model-name <model> \
--base-url <VLM-endpoint-url> \
--image-path assets/example_first_frame.png \
--user-prompt "The ice cream melts and gradually disappears. The camera moves around." \
--output-path scripts/upsampled.jsonCosmos3 已完全支持主流的 HuggingFace Diffusers 软件包。此集成使其成为受支持的推理后端,开发者可借助 Cosmos3OmniPipeline 类轻松将 Cosmos3 的功能(如文本生成图像)整合到自己的工作流中,具体可参考所提供的代码示例(其他模态的示例请参见 HuggingFace Cosmos3 页面)。
如需安装包含 Cosmos3OmniPipeline 的 diffusers:
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install \
"diffusers @ git+https://github.com/huggingface/diffusers.git" \
accelerate \
av \
cosmos_guardrail \
huggingface_hub \
imageio \
imageio-ffmpeg \
torch \
torchvision \
transformers以下示例在单张 GB200 上生成视频大约需要 170 秒。
import json
import torch
from diffusers import Cosmos3OmniPipeline, UniPCMultistepScheduler
from diffusers.utils import export_to_video, load_image
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Super-Image2Video",
torch_dtype=torch.bfloat16,
device_map="cuda",
enable_safety_checker=True,
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=5.0)
image = load_image("assets/example_first_frame.png")
# JSON-format prompt (see scripts/upsample_prompt.py to build your own).
spec = json.load(open("assets/example_prompt.json"))
prompt = spec["prompt"]
negative_prompt = spec["negative_prompt"]
result = pipe(
prompt=prompt,
negative_prompt=negative_prompt,
image=image,
num_frames=189,
height=480,
width=832,
fps=24.0,
num_inference_steps=50,
guidance_scale=6.0,
add_resolution_template=False,
add_duration_template=False,
)
export_to_video(result.video, "output.mp4", fps=24, quality=7, macro_block_size=1)Diffusers 生成的示例输出:
在复杂场景下,Cosmos3 可能会生成不够完美的输出。生成缺陷包括时间不一致、相机或物体运动不稳定、物理交互不精确、音视频同步不准确以及动作状态偏移——尤其是在长时程或高分辨率输出中。推理也可能存在错误:物体状态、因果关系、空间几何、时间顺序、主体意图和未来结果可能被错误推断,复杂或长上下文输入可能会产生虚构实体、不一致的解释或不合理的预测。由于该模型缺乏显式的物理模拟器,3D 几何、4D 时空演化、物体恒存性、接触动力学和物理定律仅为近似模拟——这会导致诸如物体消失或变形、不真实的碰撞以及物理上不合理的运动等缺陷。在分布外环境、安全关键边缘情况以及训练中代表性不足的领域,生成质量会进一步下降。
Cosmos3 的输出不应被视为物理精确的模拟、可靠的真实推理或安全认证的决策依据。涉及机器人控制、自主系统、科学模拟或安全关键规划的应用,在部署前需要额外的验证、外部约束、系统级安全分析和特定领域的防护措施。
加速引擎: PyTorch、vLLM、vLLM-Omni、Hugging Face Diffusers
测试硬件: GB200 和 H100
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持广泛的 AI 应用开发。开发人员应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对未预见的产品误用问题。
请确保您对所有输入图像和视频内容拥有适当的权利和许可;如果图像或视频中包含人物、个人健康信息或知识产权,生成的图像或视频不会模糊或保持所包含图像主体的比例。
用户对模型的输入和输出负责。用户在部署前负责确保该模型的安全集成,包括实施防护措施以及其他安全机制。
有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的可解释性、偏差、安全与安保和隐私子卡片。请通过此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。