HuggingFace镜像/Cosmos3-Super-Text2Image
模型介绍文件和版本分析
下载使用量0

Cosmos 3:面向物理人工智能的全模态世界模型

模型集合 | 代码 | 白皮书 | 网站

NVIDIA Cosmos™ 是一个世界基础模型平台,旨在通过使机器能够在机器人技术、自动驾驶和智能空间环境(包括工业和工厂规模应用)中理解、模拟和与物理世界交互,从而加速物理人工智能(Physical AI)的发展。

模型概述:Cosmos3-Super-Text2Image

描述

Cosmos3 是一系列全模态世界模型的集合,能够从文本、图像、视频和动作轨迹输入的组合中生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理人工智能应用和研究的基础构建块,涵盖世界理解、世界生成、模拟和具身智能体策略学习。

本模型可供商业和非商业使用。

模型开发者: NVIDIA

模型版本

  • Cosmos3-Nano:

    • 给定包括文本、图像、视频、音频和动作轨迹在内的多模态输入,生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界模拟、未来预测、动作推理和物理人工智能应用。
  • Cosmos3-Super:

    • 给定包括文本、图像、视频、音频和动作轨迹在内的多模态输入,生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界模拟、未来预测、动作推理和物理人工智能应用。
  • Cosmos3-Nano-Policy-DROID:

    • 给定语言指令和来自 DROID 机器人平台的视觉观察,生成用于操作和控制任务的机器人动作轨迹。
  • Cosmos3-Super-Image2Video:

    • 给定一个输入图像和文本指令,生成与所提供视觉内容一致的时间连贯视频序列。
  • Cosmos3-Super-Text2Image:

    • 给定文本输入,生成与所提供描述一致的高保真图像。

许可协议

本模型基于 OpenMDW1.1 许可协议发布。

部署地域

全球

应用场景

物理人工智能:涵盖机器人技术、自动驾驶汽车(AV)和智能空间环境,包括工业和工厂规模的应用。

发布日期

Hugging Face 2026年5月31日,通过 https://huggingface.co/collections/nvidia/cosmos3 GitHub 2026年5月31日,通过 https://github.com/nvidia/cosmos

模型架构

架构类型: Transformer

网络架构: 混合Transformer(Mixture-of-Transformers,MoT)

Cosmos3 是一个全模态基础模型,构建于混合Transformer(Mixture-of-Transformers,MoT)架构之上,包含两个互补的Transformer塔:一个用于离散令牌生成的自回归Transformer,和一个用于连续多模态生成的扩散Transformer。在推理过程中,文本通过标准的下一个令牌自回归解码生成,而非文本模态(如图像、视频、音频和动作)则通过迭代去噪合成。这种统一的架构使Cosmos3能够在单一框架内对异构模态进行建模,同时保留每种模态最适合的生成机制。

本模型基于以下项目开发: Cosmos Framework

可训练模型参数数量:

  • Cosmos3-Nano:160亿
  • Cosmos3-Super:640亿
  • Cosmos3-Nano-Policy-DROID:160亿
  • Cosmos3-Super-Image2Video:640亿
  • Cosmos3-Super-Text2Image:640亿

输入/输出规格

  • 生成器输入
    • 输入类型: 文本、图像、视频(带音频或不带音频)、动作轨迹
    • 输入格式:
      • 文本:字符串
      • 图像:jpg、png、jpeg、webp
      • 视频(带或不带音频):mp4
      • 动作:json(一维列表)
    • 输入参数:
      • 文本:一维(1D)
      • 图像:二维(2D)
      • 视频:三维(3D)
      • 音频:一维(1D)
      • 动作轨迹:一维(1D)
    • 与输入相关的其他属性:
      • 对于视频输入,我们接受多种分辨率,包括720p、480p和256p。
      • 当使用音频混入视频MP4文件的输入视频时,音频应具有2个声道(立体声)和48 kHz的采样率。
      • 图像和视频输入为RGB颜色(每通道8位,sRGB色彩空间);不支持灰度输入。
      • 动作输入是每帧的机器人/智能体状态或控制值序列(例如,关节位置、 gripper 状态、相机姿态)。完整输入是一个形状为(T,D)的二维数组,其中T是帧数,D是下面列出的特定实体的维度。
      • 输入动作仅支持兼容的实体,包括通用相机运动(9D)、自动驾驶汽车(9D)、以自我为中心的运动(57D)、带RobotiQ gripper的单个Franka Panda机械臂(10D)、带RobotiQ gripper的双Franka Panda机械臂(20D)、Agibot(29D)、UR(10D)、Google机器人(10D)、WidowX 250(10D)、UMI(9D)。
    • 输入大小和长度限制:
      • 文本: 4096个令牌
      • 图像: 256p、480p和720p分辨率,以下列宽高比之一呈现(16:9、4:3、1:1、3:4、9:16)
      • 视频: 256p、480p和720p分辨率,以下列宽高比之一呈现(16:9、4:3、1:1、3:4、9:16)。最大帧数 = 5。
      • 音频: 最长0.5秒
      • 动作: 16 – 400个视频帧
  • 生成器输出
    • 输出类型: 图像、视频、音频、动作、文本
    • 输出格式:
      • 图像:JPG
      • 视频:MP4
      • 音频:高级音频编码(AAC)流(混入MP4中)
      • 动作:一维列表(.json)
      • 文本:字符串
    • 输出参数:
      • 图像:二维(2D)
      • 视频:三维(3D)
      • 音频:一维(1D)
      • 动作:一维(1D)
      • 文本:一维(1D)
    • 与输出相关的其他属性:
      • 生成的视频是MP4文件,其分辨率、帧率和持续时间在输入中指定。生成的音频以AAC格式编码,混入视频MP4文件中,具有2个声道(立体声)和48 kHz的采样率。
      • 视频生成支持5到400帧的持续时间,默认生成持续时间为189帧。
      • 生成的动作仅支持兼容的实体,包括通用相机运动(9D)、自动驾驶汽车(9D)、以自我为中心的运动(57D)、带RobotiQ gripper的单个Franka Panda机械臂(10D)、带RobotiQ gripper的双Franka Panda机械臂(20D)、Agibot(29D)、UR(10D)、Google机器人(10D)、WidowX 250(10D)、UMI(9D)。
      • 音频:48 kHz立体声AAC流混入视频mp4
      • 视频:mp4,帧率与输入中指定的一致
      • 图像:JPEG
  • 推理器输入
    • 输入类型: 文本、文本+图像、文本+视频
    • 输入格式:
      • 文本:字符串
      • 图像:jpg、png、jpeg、webp
      • 视频:mp4
    • 输入参数:
      • 文本:一维(1D)
      • 图像:二维(2D)
      • 视频:三维(3D)
    • 与输入相关的其他属性:
      • 建议视频输入的帧率为4 fps。
      • 支持长上下文输入,最多可达256K个令牌。
    • 输入大小和长度限制:
      • 文本: 最多256K个令牌(上下文窗口)。
      • 图像: 标准输入图像格式;以文件或URL形式传递。
      • 视频: mp4,建议帧率为4 fps。
  • 推理器输出
    • 输出类型: 文本
    • 输出格式:
      • 文本:字符串
    • 输出参数:
      • 文本:一维(1D)
    • 与输出相关的其他属性:
      • 建议推理输出的默认 max_tokens=4096+;可请求更长的输出。
      • 推理输出可能包括结构化的思维链、2D/3D点定位以及视觉任务的边界框坐标。

视频内容将输入的文本描述可视化为一个简短的动画场景,在指定的时间限制内捕捉关键元素。

我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成

运行时引擎:

  • PyTorch
  • vLLM-Omni
  • Hugging Face Diffusers

支持的硬件微架构兼容性:

  • NVIDIA Ampere(英伟达安培)
  • NVIDIA Blackwell(英伟达 Blackwell)
  • NVIDIA Hopper(英伟达霍珀)

操作系统:

  • Linux(我们尚未在其他操作系统上进行测试。)

注意: 仅测试了 BF16 精度。FP4、FP8 和 FP16 等其他精度暂未获得官方支持。

将基础模型和微调模型集成到 AI 系统中时,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试与验证至关重要,这有助于在部署前降低风险、满足技术和功能要求,并确保符合安全与伦理标准。

训练、测试与评估数据集

数据集概述

  • 总规模: 13 亿数据点
  • 数据集总数: 393 个数据集条目
  • 数据集划分: 训练集 [100%],测试集 [不适用——评估基准单独使用],验证集 [不适用——评估基准单独使用]
  • 训练数据收集时间段: 2024–2026 年
  • 测试数据收集时间段: 不适用(标准公共基准)
  • 验证数据收集时间段: 不适用(标准公共基准)

来自内部和外部来源的原始数据,需经过多阶段的整理、筛选和质量审查,才能转化为可用于训练的数据。数据采集涵盖多种多模态来源——机器人技术、自动驾驶、工业环境、室内外场景、不同光照和天气条件、摄像机视角、物体类别以及人类活动——以扩大在物理 AI 操作环境中的覆盖范围。自动化筛选管道会移除损坏、重复、低质量和受限制的内容。在预处理阶段,会应用元数据分析、启发式规则和模型辅助分类器,以标记异常分布和低多样性子集。对于选定的数据集、基准构建和针对性质量分析,人工审核会作为自动化筛选的补充。数据集在多种模态和任务类别间保持平衡——视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频转换、动作条件生成和动作命令生成——以减少特定领域的过度代表性。合成和基于模拟的增强技术,用于补充罕见物理交互和边缘案例场景的覆盖。对整个语料库进行去重和来源跟踪。最终处理后的数据,会通过特定模态的预处理器转换为模型可用的标记化或编码表示,然后再开始训练。

训练数据集经过多层自动化和人工防护措施处理,旨在减少各类有害或违反政策内容的存在,这些类别包括武器及与武器相关的指导内容、犯罪策划、儿童性虐待材料(CSAM)、非自愿私密图像(NCII)、涉及未成年人的性内容、骚扰、仇恨言论、亵渎言语、威胁和煽动暴力、自残或自杀相关内容以及血腥暴力。在将数据源纳入训练语料库之前,会对其许可兼容性、来源以及是否符合内部数据治理和安全政策进行审查。自动化筛选管道结合了多种检测策略:针对已知 CSAM 和 NCII 参考数据库的哈希匹配;针对露骨性内容、仇恨言论、暴力、武器图像和其他受限制类别的基于分类器的审核模型;针对文本数据中犯罪策划、威胁和自残短语的关键词和正则表达式筛选;针对来源级风险信号的元数据和来源启发式方法;以及用于发现超出预期分布样本的基于嵌入的异常检测。对于选定的数据集、基准构建和安全敏感评估,人工审核和有针对性的审计会作为自动化筛选的补充。对于多模态物理 AI 数据(机器人技术、自动驾驶、工业场景),额外的筛选针对无效的动作轨迹、物理上不合理的交互以及不安全的控制序列。合成和模拟生成的数据在纳入前需经过内部验证。训练后会应用基准评估和红队测试,以发现世界生成、推理、音频和动作任务中仍然存在的安全漏洞。没有任何大规模数据筛选流程能够保证完全清除所有有害内容;残余风险可能仍然存在,尤其是在罕见的边缘情况或开放世界部署环境中。发布后会继续进行持续监控和数据集审查。

数据模态与训练数据规模

模态推理数据样本数生成数据样本数
文本2200 万不适用
图像1900 万7.67 亿
视频100 万3.48 亿
音频不适用1.39 亿
动作不适用800 万

各数据集的数据收集方法

  • 混合:自动/传感器、合成、自动化

各数据集的标注方法

  • 混合:人工、自动化

特性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成及传感器条件数据,这些数据来源于 NVIDIA 自有数据以及公开可用、商业许可的数据集。对这些数据集进行整理,以排除已知的受限制内容,并支持构建一个 Omni 模型,使其能够学习对动态物理环境进行生成和推理,涵盖世界推理和生成任务。

公开数据集

数据集                                                            样本数量          
OpenImage120万
Coyo700M1亿
YouTube Video3.4亿
UMI450万

私有数据集

数据集                                                            样本数量          
Egocentric700万
Nexar60万
AgiBot20万
HOI30万

合成数据集

数据集样本数量
使用HiDream-I1生成的合成图像1500万
使用Qwen-Image-2512生成的合成图像1400万
使用Qwen3-VL生成的合成文本描述11.15亿

评估数据集

各数据集的数据收集方法

  • 混合:自动/传感器、合成、自动化

各数据集的标注方法

  • 混合:人工、自动化

特性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成以及传感器条件数据,这些数据来源于NVIDIA自有数据和公开可用的商业许可数据集。这些数据集经过精心筛选,排除了已知的受限内容,旨在支持构建一个Omni模型,使其能够学习在世界推理和生成任务中对动态物理环境进行生成和推理。

基准测试

有关基础模型的详细评估,请参见我们的技术论文。

文本到图像基准测试结果

benchmark results

人工分析排行榜

开源模型 [2026/05/28/]

Artificial Analysis Text-to-Image leaderboard — open-source models

所有模型 [2026/05/28/](含闭源模型)

Artificial Analysis Text-to-Image leaderboard — all models including closed-source

定性示例

Qualitative examples

使用方法

  • 详情请参见 Cosmos。

提示词升采样

为获得最佳质量,文本提示词应升采样为特定的 JSON 结构。相关说明和代码可在 此处 找到。

例如,使用 Opus-4.7 进行文本到图像的升采样:

git clone https://github.com/NVIDIA/cosmos-framework.git packages/cosmos-framework
pip install -e packages/cosmos-framework

export PROMPT_UPSAMPLER_ENDPOINT_URL="https://api.anthropic.com/v1/"
export PROMPT_UPSAMPLER_MODEL_NAME="claude-opus-4-7"
export PROMPT_UPSAMPLER_API_TOKEN="<your_token>"

python -m cosmos_framework.inference.prompt_upsampling \
    --input assets/original_prompt.txt \
    --output /tmp/upsampled_t2i_opus/ \
    --mode text2image \
    --endpoint-url "${PROMPT_UPSAMPLER_ENDPOINT_URL}" \
    --model "${PROMPT_UPSAMPLER_MODEL_NAME}" \
    --api-token "${PROMPT_UPSAMPLER_API_TOKEN}" \
    --resolution 768 \
    --aspect-ratio "1,1"

为方便起见,assets/original_prompt.txt 的 JSON 上采样版本已保存至 assets/example_caption.json,并用于以下图像生成示例。

vLLM-Omni

容器

docker pull vllm/vllm-omni:cosmos3

通用调用

您可以使用经过发布测试的 vllm-omni 软件包来部署兼容 OpenAI 的 API 推理端点。 在 8xH100 节点上部署 nvidia/Cosmos3-Super-Text2Image 时,推荐的 vLLM-Omni 服务配置如下:

vllm serve nvidia/Cosmos3-Super-Text2Image \
  --omni \
  --host 0.0.0.0 \
  --port 8000 \
  --cfg-parallel-size 2 \
  --ulysses-degree 4 \
  --tensor-parallel-size 1 \
  --use-hsdp \
  --hsdp-shard-size 8 \
  --init-timeout 1800

设置 --enable-layerwise-offload 有助于在显存较少的 GPU 上降低内存占用;但请注意,在文本到图像生成任务中,这可能会导致显著的性能损失。对于 4xH200 或 4xGB200 配置,只需使用 --cfg-parallel-size 2 --ulysses-degree 2 --tensor-parallel-size 1 即可。

示例

文本到图像生成
import base64
import json
import requests

# 1. Read JSON-upsampled prompt
json_prompt = json.load(open("assets/example_caption.json"))

# 2. Build your API payload
payload = {
    "prompt": json.dumps(json_prompt),
    "size": "1024x1024",
    "n": 1,  # single frame generation
    "num_inference_steps": 50,
    "guidance_scale": 4.0,
    "flow_shift": 3.0,
    "negative_prompt": "",
    "seed": 1143,
    "extra_args": {
      "use_resolution_template": False,
      "guardrails": True,
    },
}

# 3. Send the POST request
url = "http://localhost:8000/v1/images/generations"
print("Sending request to server...")
response = requests.post(url, json=payload, headers={"Content-Type": "application/json"})
response.raise_for_status()

# 4. Extract the base64 data and decode it into an image
response_json = response.json()
b64_data = response_json["data"][0]["b64_json"]
image_bytes = base64.b64decode(b64_data)

# 5. Save the final PNG file
with open("/tmp/cosmos3_t2i.png", "wb") as image_file:
    image_file.write(image_bytes)
print("Saved image to /tmp/cosmos3_t2i.png")

example_image

Diffusers

Cosmos3 已在热门的 HuggingFace Diffusers 包中得到全面支持。此集成使其成为受支持的推理后端,让开发者能够轻松将 Cosmos3 的功能(如文本到图像生成)整合到他们的流水线中,具体可通过 Cosmos3OmniPipeline 类实现,如所提供的代码示例所示(有关其他模态的示例,请参见 HuggingFace Cosmos3 页面)。

注意:本示例已在 GB200 上测试。对于 H100,请使用上方的 vLLM-Omni 服务方案,该方案通过 HSDP 支持多 GPU 部署。

安装

如需安装带有 Cosmos3OmniPipeline 的 diffusers:

uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install \
  "diffusers @ git+https://github.com/huggingface/diffusers.git" \
  accelerate \
  av \
  cosmos_guardrail \
  huggingface_hub \
  imageio \
  imageio-ffmpeg \
  torch \
  torchvision \
  transformers

示例

文本到图像生成
import json
import torch
from diffusers import Cosmos3OmniPipeline
from diffusers.schedulers.scheduling_unipc_multistep import UniPCMultistepScheduler

json_prompt = json.load(open("assets/example_caption.json"))

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Super-Text2Image",
    torch_dtype=torch.bfloat16,
    device_map="cuda",
    enable_safety_checker=True,
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=3.0)

result = pipe(
    prompt=json.dumps(json_prompt),
    negative_prompt="",
    num_frames=1,
    height=1024,
    width=1024,
    num_inference_steps=50,
    guidance_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(1143),
)

result.video[0].save("/tmp/cosmos3_t2i.png")
print("Saved image to /tmp/cosmos3_t2i.png")

局限性

Cosmos3在复杂场景下可能生成不完美的输出。生成缺陷包括时间不一致、相机或物体运动不稳定、物理交互不精确、音视频同步不准确以及动作状态偏移——尤其是在长时程或高分辨率输出中。推理也可能存在错误:物体状态、因果关系、空间几何、时间顺序、主体意图和未来结果可能被误判,复杂或长上下文输入可能导致虚构实体、不一致的解释或不合理的预测。由于模型缺乏显式的物理模拟器,3D几何、4D时空演化、物体恒存性、接触动力学和物理定律仅为近似模拟——从而产生诸如物体消失或变形、不真实的碰撞以及物理上不合理的运动等缺陷。在分布外环境、安全关键边缘案例以及训练中代表性不足的领域,输出质量会进一步下降。

Cosmos3的输出不应被视为物理精确的模拟、可靠的真实推理或安全认证的决策依据。涉及机器人控制、自主系统、科学模拟或安全关键规划的应用,在部署前需要额外的验证、外部约束、系统级安全分析和特定领域的防护措施。

推理

加速引擎: PyTorch、vLLM、vLLM-Omni、Hugging Face Diffusers

测试硬件: GB200 和 H100

伦理考量

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持广泛的 AI 应用开发。开发人员应与其内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品误用问题。

请确保您对所有输入图像和视频内容拥有适当的权利和许可;如果图像或视频包含人物、个人健康信息或知识产权,生成的图像或视频不会模糊或保持所包含图像主体的比例。

用户对模型的输入和输出负责。用户负责确保在部署前安全集成此模型,包括实施防护措施以及其他安全机制。

有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的可解释性、偏见、安全与安保和隐私子卡片。请通过此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。