NVIDIA Cosmos™ 是一个世界基础模型平台,旨在通过使机器能够在机器人技术、自动驾驶和智能空间环境(包括工业和工厂规模应用)中理解、模拟和与物理世界交互,从而加速物理人工智能(Physical AI)的发展。
Cosmos3 是一系列全模态世界模型的集合,能够从文本、图像、视频和动作轨迹输入的组合中生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理人工智能应用和研究的基础构建块,涵盖世界理解、世界生成、模拟和具身智能体策略学习。
本模型可供商业和非商业使用。
模型开发者: NVIDIA
Cosmos3-Nano:
Cosmos3-Super:
Cosmos3-Nano-Policy-DROID:
Cosmos3-Super-Image2Video:
Cosmos3-Super-Text2Image:
本模型基于 OpenMDW1.1 许可协议发布。
全球
物理人工智能:涵盖机器人技术、自动驾驶汽车(AV)和智能空间环境,包括工业和工厂规模的应用。
Hugging Face 2026年5月31日,通过 https://huggingface.co/collections/nvidia/cosmos3 GitHub 2026年5月31日,通过 https://github.com/nvidia/cosmos
架构类型: Transformer
网络架构: 混合Transformer(Mixture-of-Transformers,MoT)
Cosmos3 是一个全模态基础模型,构建于混合Transformer(Mixture-of-Transformers,MoT)架构之上,包含两个互补的Transformer塔:一个用于离散令牌生成的自回归Transformer,和一个用于连续多模态生成的扩散Transformer。在推理过程中,文本通过标准的下一个令牌自回归解码生成,而非文本模态(如图像、视频、音频和动作)则通过迭代去噪合成。这种统一的架构使Cosmos3能够在单一框架内对异构模态进行建模,同时保留每种模态最适合的生成机制。
本模型基于以下项目开发: Cosmos Framework
可训练模型参数数量:
max_tokens=4096+;可请求更长的输出。视频内容将输入的文本描述可视化为一个简短的动画场景,在指定的时间限制内捕捉关键元素。
我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。
运行时引擎:
支持的硬件微架构兼容性:
操作系统:
注意: 仅测试了 BF16 精度。FP4、FP8 和 FP16 等其他精度暂未获得官方支持。
将基础模型和微调模型集成到 AI 系统中时,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试与验证至关重要,这有助于在部署前降低风险、满足技术和功能要求,并确保符合安全与伦理标准。
来自内部和外部来源的原始数据,需经过多阶段的整理、筛选和质量审查,才能转化为可用于训练的数据。数据采集涵盖多种多模态来源——机器人技术、自动驾驶、工业环境、室内外场景、不同光照和天气条件、摄像机视角、物体类别以及人类活动——以扩大在物理 AI 操作环境中的覆盖范围。自动化筛选管道会移除损坏、重复、低质量和受限制的内容。在预处理阶段,会应用元数据分析、启发式规则和模型辅助分类器,以标记异常分布和低多样性子集。对于选定的数据集、基准构建和针对性质量分析,人工审核会作为自动化筛选的补充。数据集在多种模态和任务类别间保持平衡——视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频转换、动作条件生成和动作命令生成——以减少特定领域的过度代表性。合成和基于模拟的增强技术,用于补充罕见物理交互和边缘案例场景的覆盖。对整个语料库进行去重和来源跟踪。最终处理后的数据,会通过特定模态的预处理器转换为模型可用的标记化或编码表示,然后再开始训练。
训练数据集经过多层自动化和人工防护措施处理,旨在减少各类有害或违反政策内容的存在,这些类别包括武器及与武器相关的指导内容、犯罪策划、儿童性虐待材料(CSAM)、非自愿私密图像(NCII)、涉及未成年人的性内容、骚扰、仇恨言论、亵渎言语、威胁和煽动暴力、自残或自杀相关内容以及血腥暴力。在将数据源纳入训练语料库之前,会对其许可兼容性、来源以及是否符合内部数据治理和安全政策进行审查。自动化筛选管道结合了多种检测策略:针对已知 CSAM 和 NCII 参考数据库的哈希匹配;针对露骨性内容、仇恨言论、暴力、武器图像和其他受限制类别的基于分类器的审核模型;针对文本数据中犯罪策划、威胁和自残短语的关键词和正则表达式筛选;针对来源级风险信号的元数据和来源启发式方法;以及用于发现超出预期分布样本的基于嵌入的异常检测。对于选定的数据集、基准构建和安全敏感评估,人工审核和有针对性的审计会作为自动化筛选的补充。对于多模态物理 AI 数据(机器人技术、自动驾驶、工业场景),额外的筛选针对无效的动作轨迹、物理上不合理的交互以及不安全的控制序列。合成和模拟生成的数据在纳入前需经过内部验证。训练后会应用基准评估和红队测试,以发现世界生成、推理、音频和动作任务中仍然存在的安全漏洞。没有任何大规模数据筛选流程能够保证完全清除所有有害内容;残余风险可能仍然存在,尤其是在罕见的边缘情况或开放世界部署环境中。发布后会继续进行持续监控和数据集审查。
数据模态与训练数据规模
| 模态 | 推理数据样本数 | 生成数据样本数 |
|---|---|---|
| 文本 | 2200 万 | 不适用 |
| 图像 | 1900 万 | 7.67 亿 |
| 视频 | 100 万 | 3.48 亿 |
| 音频 | 不适用 | 1.39 亿 |
| 动作 | 不适用 | 800 万 |
各数据集的数据收集方法
各数据集的标注方法
特性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成及传感器条件数据,这些数据来源于 NVIDIA 自有数据以及公开可用、商业许可的数据集。对这些数据集进行整理,以排除已知的受限制内容,并支持构建一个 Omni 模型,使其能够学习对动态物理环境进行生成和推理,涵盖世界推理和生成任务。
| 数据集 | 样本数量 |
|---|---|
| OpenImage | 120万 |
| Coyo700M | 1亿 |
| YouTube Video | 3.4亿 |
| UMI | 450万 |
| 数据集 | 样本数量 |
|---|---|
| Egocentric | 700万 |
| Nexar | 60万 |
| AgiBot | 20万 |
| HOI | 30万 |
| 数据集 | 样本数量 |
|---|---|
| 使用HiDream-I1生成的合成图像 | 1500万 |
| 使用Qwen-Image-2512生成的合成图像 | 1400万 |
| 使用Qwen3-VL生成的合成文本描述 | 11.15亿 |
各数据集的数据收集方法
各数据集的标注方法
特性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成以及传感器条件数据,这些数据来源于NVIDIA自有数据和公开可用的商业许可数据集。这些数据集经过精心筛选,排除了已知的受限内容,旨在支持构建一个Omni模型,使其能够学习在世界推理和生成任务中对动态物理环境进行生成和推理。
有关基础模型的详细评估,请参见我们的技术论文。




为获得最佳质量,文本提示词应升采样为特定的 JSON 结构。相关说明和代码可在 此处 找到。
例如,使用 Opus-4.7 进行文本到图像的升采样:
git clone https://github.com/NVIDIA/cosmos-framework.git packages/cosmos-framework
pip install -e packages/cosmos-framework
export PROMPT_UPSAMPLER_ENDPOINT_URL="https://api.anthropic.com/v1/"
export PROMPT_UPSAMPLER_MODEL_NAME="claude-opus-4-7"
export PROMPT_UPSAMPLER_API_TOKEN="<your_token>"
python -m cosmos_framework.inference.prompt_upsampling \
--input assets/original_prompt.txt \
--output /tmp/upsampled_t2i_opus/ \
--mode text2image \
--endpoint-url "${PROMPT_UPSAMPLER_ENDPOINT_URL}" \
--model "${PROMPT_UPSAMPLER_MODEL_NAME}" \
--api-token "${PROMPT_UPSAMPLER_API_TOKEN}" \
--resolution 768 \
--aspect-ratio "1,1"为方便起见,assets/original_prompt.txt 的 JSON 上采样版本已保存至 assets/example_caption.json,并用于以下图像生成示例。
docker pull vllm/vllm-omni:cosmos3您可以使用经过发布测试的 vllm-omni 软件包来部署兼容 OpenAI 的 API 推理端点。
在 8xH100 节点上部署 nvidia/Cosmos3-Super-Text2Image 时,推荐的 vLLM-Omni 服务配置如下:
vllm serve nvidia/Cosmos3-Super-Text2Image \
--omni \
--host 0.0.0.0 \
--port 8000 \
--cfg-parallel-size 2 \
--ulysses-degree 4 \
--tensor-parallel-size 1 \
--use-hsdp \
--hsdp-shard-size 8 \
--init-timeout 1800设置 --enable-layerwise-offload 有助于在显存较少的 GPU 上降低内存占用;但请注意,在文本到图像生成任务中,这可能会导致显著的性能损失。对于 4xH200 或 4xGB200 配置,只需使用 --cfg-parallel-size 2 --ulysses-degree 2 --tensor-parallel-size 1 即可。
import base64
import json
import requests
# 1. Read JSON-upsampled prompt
json_prompt = json.load(open("assets/example_caption.json"))
# 2. Build your API payload
payload = {
"prompt": json.dumps(json_prompt),
"size": "1024x1024",
"n": 1, # single frame generation
"num_inference_steps": 50,
"guidance_scale": 4.0,
"flow_shift": 3.0,
"negative_prompt": "",
"seed": 1143,
"extra_args": {
"use_resolution_template": False,
"guardrails": True,
},
}
# 3. Send the POST request
url = "http://localhost:8000/v1/images/generations"
print("Sending request to server...")
response = requests.post(url, json=payload, headers={"Content-Type": "application/json"})
response.raise_for_status()
# 4. Extract the base64 data and decode it into an image
response_json = response.json()
b64_data = response_json["data"][0]["b64_json"]
image_bytes = base64.b64decode(b64_data)
# 5. Save the final PNG file
with open("/tmp/cosmos3_t2i.png", "wb") as image_file:
image_file.write(image_bytes)
print("Saved image to /tmp/cosmos3_t2i.png")
Cosmos3 已在热门的 HuggingFace Diffusers 包中得到全面支持。此集成使其成为受支持的推理后端,让开发者能够轻松将 Cosmos3 的功能(如文本到图像生成)整合到他们的流水线中,具体可通过 Cosmos3OmniPipeline 类实现,如所提供的代码示例所示(有关其他模态的示例,请参见 HuggingFace Cosmos3 页面)。
注意:本示例已在 GB200 上测试。对于 H100,请使用上方的 vLLM-Omni 服务方案,该方案通过 HSDP 支持多 GPU 部署。
如需安装带有 Cosmos3OmniPipeline 的 diffusers:
uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install \
"diffusers @ git+https://github.com/huggingface/diffusers.git" \
accelerate \
av \
cosmos_guardrail \
huggingface_hub \
imageio \
imageio-ffmpeg \
torch \
torchvision \
transformersimport json
import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler
json_prompt = json.load(open("assets/example_caption.json"))
pipe = Cosmos3OmniPipeline.from_pretrained(
"nvidia/Cosmos3-Super-Text2Image",
torch_dtype=torch.bfloat16,
device_map="cuda",
enable_safety_checker=True,
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=3.0)
result = pipe(
prompt=json.dumps(json_prompt),
negative_prompt="",
num_frames=1,
height=1024,
width=1024,
num_inference_steps=50,
guidance_scale=4.0,
generator=torch.Generator(device="cuda").manual_seed(1143),
)
result.video[0].save("/tmp/cosmos3_t2i.png")
print("Saved image to /tmp/cosmos3_t2i.png")Cosmos3在复杂场景下可能生成不完美的输出。生成缺陷包括时间不一致、相机或物体运动不稳定、物理交互不精确、音视频同步不准确以及动作状态偏移——尤其是在长时程或高分辨率输出中。推理也可能存在错误:物体状态、因果关系、空间几何、时间顺序、主体意图和未来结果可能被误判,复杂或长上下文输入可能导致虚构实体、不一致的解释或不合理的预测。由于模型缺乏显式的物理模拟器,3D几何、4D时空演化、物体恒存性、接触动力学和物理定律仅为近似模拟——从而产生诸如物体消失或变形、不真实的碰撞以及物理上不合理的运动等缺陷。在分布外环境、安全关键边缘案例以及训练中代表性不足的领域,输出质量会进一步下降。
Cosmos3的输出不应被视为物理精确的模拟、可靠的真实推理或安全认证的决策依据。涉及机器人控制、自主系统、科学模拟或安全关键规划的应用,在部署前需要额外的验证、外部约束、系统级安全分析和特定领域的防护措施。
加速引擎: PyTorch、vLLM、vLLM-Omni、Hugging Face Diffusers
测试硬件: GB200 和 H100
NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持广泛的 AI 应用开发。开发人员应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品误用问题。
请确保您对所有输入图像和视频内容拥有适当的权利和许可;如果图像或视频包含人物、个人健康信息或知识产权,生成的图像或视频不会模糊或保持所包含图像主体的比例。
用户对模型的输入和输出负责。用户负责确保在部署前安全集成此模型,包括实施防护措施以及其他安全机制。
有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的可解释性、偏见、安全与安保和隐私子卡片。请通过此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。