HuggingFace镜像/Cosmos3-Super-Image2Video
模型介绍文件和版本分析
下载使用量0

Cosmos 3:面向物理智能的全模态世界模型

模型集合 | 代码 | 白皮书 | 网站

NVIDIA Cosmos™ 是一个世界基础模型平台,旨在通过使机器能够在机器人技术、自动驾驶和智能空间环境(包括工业和工厂规模的应用)中理解、模拟和与物理世界交互,从而加速物理智能的发展。

模型概述:Cosmos3-Super-Image2Video

描述

Cosmos3 是一系列全模态世界模型的集合,能够从文本、图像、视频和动作轨迹输入的组合中生成动态、高质量的视频、图像、音频和动作指令。它作为广泛物理智能应用和研究的基础构建块,涵盖世界理解、世界生成、模拟和具身策略学习。

本模型可用于商业和非商业用途。

模型开发者: NVIDIA

模型版本

  • Cosmos3-Nano:

    • 给定包括文本、图像、视频、音频和动作轨迹在内的多模态输入,生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界模拟、未来预测、动作推理和物理智能应用。
  • Cosmos3-Super:

    • 给定包括文本、图像、视频、音频和动作轨迹在内的多模态输入,生成连贯的文本、图像、视频、音频和动作输出,用于多模态理解、世界模拟、未来预测、动作推理和物理智能应用。
  • Cosmos3-Nano-Policy-DROID:

    • 给定语言指令和来自 DROID 机器人平台的视觉观察,生成用于操作和控制任务的机器人动作轨迹。
  • Cosmos3-Super-Image2Video:

    • 给定一张输入图像和文本指令,生成与所提供视觉内容一致的时间连贯视频序列。
  • Cosmos3-Super-Text2Image:

    • 给定文本输入,生成与所提供描述一致的高保真图像。

许可协议

本模型基于 OpenMDW1.1 许可协议发布。

部署地区

全球

应用场景

物理人工智能:涵盖机器人技术、自动驾驶汽车(AV)以及智能空间环境,包括工业和工厂规模的应用。

发布日期

Hugging Face:2026年5月31日,通过 https://huggingface.co/collections/nvidia/cosmos3 GitHub:2026年5月31日,通过 https://github.com/nvidia/cosmos

模型架构

架构类型: Transformer

网络架构: 混合Transformer(Mixture-of-Transformers,MoT)

Cosmos3是一个全模态基础模型,构建于混合Transformer(MoT)架构之上,包含两个互补的Transformer塔:一个用于离散令牌生成的自回归Transformer,以及一个用于连续多模态生成的扩散Transformer。在推理过程中,文本通过标准的下一个令牌自回归解码生成,而非文本模态(如图像、视频、音频和动作)则通过迭代去噪进行合成。这种统一的架构使Cosmos3能够在单一框架内对异构模态进行建模,同时保留每种模态最适合的生成机制。

本模型基于以下项目开发: Cosmos Framework

可训练模型参数数量:

  • Cosmos3-Nano:160亿
  • Cosmos3-Super:640亿
  • Cosmos3-Nano-Policy-DROID:160亿
  • Cosmos3-Super-Image2Video:640亿
  • Cosmos3-Super-Text2Image:640亿

输入/输出规格

  • 生成器输入
    • 输入类型: 文本、图像、视频(带音频或不带音频)、动作轨迹
    • 输入格式:
      • 文本:字符串
      • 图像:jpg、png、jpeg、webp
      • 视频(带或不带音频):mp4
      • 动作:json(一维列表)
    • 输入参数:
      • 文本:一维(1D)
      • 图像:二维(2D)
      • 视频:三维(3D)
      • 音频:一维(1D)
      • 动作轨迹:一维(1D)
    • 与输入相关的其他属性:
      • 对于视频输入,我们接受多种分辨率,包括720p、480p和256p。
      • 当使用音频混合到视频MP4文件中的输入视频时,音频应具有2个声道(立体声)和48 kHz的采样率。
      • 图像和视频输入为RGB颜色(每通道8位,sRGB色彩空间);不支持灰度输入。
      • 动作输入是每帧的机器人/智能体状态或控制值序列(例如,关节位置、 gripper 状态、相机姿态)。完整输入是一个形状为 (T, D) 的二维数组,其中 T 是帧数,D 是下面列出的特定载体的维度。
      • 输入动作仅支持兼容的载体,包括通用相机运动(9D)、自动驾驶汽车(9D)、以自我为中心的运动(57D)、带RobotiQ gripper 的单个 Franka Panda 机械臂(10D)、带RobotiQ gripper 的双 Franka Panda 机械臂(20D)、Agibot(29D)、UR(10D)、Google robot(10D)、WidowX 250(10D)、UMI(9D)。
    • 输入大小和长度限制:
      • 文本: 4096个令牌
      • 图像: 256p、480p和720p分辨率,且具有以下纵横比之一(16:9、4:3、1:1、3:4、9:16)
      • 视频: 256p、480p和720p分辨率,且具有以下纵横比之一(16:9、4:3、1:1、3:4、9:16)。最大帧数 = 5。
      • 音频: 最长0.5秒
      • 动作: 16 – 400个视频帧
  • 生成器输出
    • 输出类型: 图像、视频、音频、动作、文本
    • 输出格式:
      • 图像:JPG
      • 视频:MP4
      • 音频:高级音频编码(AAC)流(混合到MP4中)
      • 动作:一维列表(.json)
      • 文本:字符串
    • 输出参数:
      • 图像:二维(2D)
      • 视频:三维(3D)
      • 音频:一维(1D)
      • 动作:一维(1D)
      • 文本:一维(1D)
    • 与输出相关的其他属性:
      • 生成的视频是MP4文件,其分辨率、帧率和持续时间在输入中指定。生成的音频以AAC格式编码,混合到视频MP4文件中,具有2个声道(立体声)和48 kHz的采样率。
      • 视频生成支持5到400帧的持续时间,默认生成持续时间为189帧。
      • 生成的动作仅支持兼容的载体,包括通用相机运动(9D)、自动驾驶汽车(9D)、以自我为中心的运动(57D)、带RobotiQ gripper 的单个 Franka Panda 机械臂(10D)、带RobotiQ gripper 的双 Franka Panda 机械臂(20D)、Agibot(29D)、UR(10D)、Google robot(10D)、WidowX 250(10D)、UMI(9D)。
      • 音频:48 kHz 立体声 AAC 流混合到视频 mp4 中
      • 视频:mp4,帧率与输入中指定的一致
      • 图像:JPEG
  • 推理器输入
    • 输入类型: 文本、文本+图像、文本+视频
    • 输入格式:
      • 文本:字符串
      • 图像:jpg、png、jpeg、webp
      • 视频:mp4
    • 输入参数:
      • 文本:一维(1D)
      • 图像:二维(2D)
      • 视频:三维(3D)
    • 与输入相关的其他属性:
      • 建议视频输入的帧率为4 fps。
      • 支持长上下文输入,最多可达256K个令牌。
    • 输入大小和长度限制:
      • 文本: 最多256K个令牌(上下文窗口)。
      • 图像: 标准输入图像格式;作为文件或URL传递。
      • 视频: mp4,推荐帧率为4 fps。
  • 推理器输出
    • 输出类型: 文本
    • 输出格式:
      • 文本:字符串
    • 输出参数:
      • 文本:一维(1D)
    • 与输出相关的其他属性:
      • 对于推理输出,建议默认 max_tokens=4096+;可请求更长的输出。
      • 推理输出可能包括结构化的思维链、2D/3D点定位以及视觉任务的边界框坐标。

视频内容将输入的文本描述可视化为一个简短的动画场景,在指定的时间限制内捕捉关键元素。

我们的AI模型设计和/或优化为在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件(例如GPU核心)和软件框架(例如CUDA库),与仅使用CPU的解决方案相比,该模型实现了更快的训练和推理时间。

软件集成

运行时引擎:

  • PyTorch
  • vLLM-Omni
  • Hugging Face Diffusers

支持的硬件微架构兼容性:

  • NVIDIA Ampere(安培)
  • NVIDIA Blackwell( Blackwell)
  • NVIDIA Hopper(霍珀)

操作系统:

  • Linux(我们尚未在其他操作系统上进行测试。)

注意: 仅测试了 BF16 精度。FP4、FP8 和 FP16 等其他精度未获得官方支持。

将基础模型和微调模型集成到 AI 系统中,需要使用特定用例的数据进行额外测试,以确保安全有效的部署。遵循 V 模型方法论,在单元和系统层面进行迭代测试与验证至关重要,这有助于在部署前降低风险、满足技术和功能要求,并确保符合安全与道德标准。

训练、测试和评估数据集

数据集概述

  • 总规模: 13 亿个数据点
  • 数据集总数: 393 个数据集条目
  • 数据划分: 训练集 [100%],测试集 [不适用 — 评估基准单独使用],验证集 [不适用 — 评估基准单独使用]
  • 训练数据收集时间段: 2024–2026 年
  • 测试数据收集时间段: 不适用(标准公共基准)
  • 验证数据收集时间段: 不适用(标准公共基准)

来自内部和外部来源的原始数据经过多阶段的整理、筛选和质量审查,转化为可用于训练的数据。数据采集涵盖多种多模态来源——机器人技术、自动驾驶、工业环境、室内外场景、各种光照和天气条件、摄像机视角、物体类别以及人类活动——以扩大在物理 AI 操作环境中的覆盖范围。自动化筛选管道会移除损坏、重复、低质量和受限制的内容。在预处理阶段,应用元数据分析、启发式规则和模型辅助分类器来标记异常分布和低多样性子集。人工审核对选定数据集、基准构建和目标质量分析的自动化筛选起到补充作用。数据集在模态和任务类别之间保持平衡——视觉推理、文本到图像、文本到视频、图像到视频、音频生成、视频迁移、动作条件生成和动作命令生成——以减少狭窄领域的过度代表性。合成和基于模拟的增强补充了对罕见物理交互和边缘情况场景的覆盖。在整个语料库中应用去重和来源跟踪。最终处理后的数据在开始训练前,通过特定于模态的预处理器转换为模型可用的标记化或编码表示。

训练数据集通过多层自动化和人工防护措施,旨在减少各类有害或违反政策内容的存在,这些类别包括武器及与武器相关的指导内容、犯罪策划、儿童性虐待材料(CSAM)、非自愿私密图像(NCII)、涉及未成年人的性内容、骚扰、仇恨言论、亵渎语言、威胁和煽动暴力、自残或自杀相关内容以及血腥暴力。在将数据源纳入训练语料库之前,会对其许可兼容性、来源以及是否符合内部数据治理和安全政策进行审查。自动化筛选管道结合了多种检测策略:针对已知 CSAM 和 NCII 参考数据库的哈希匹配;针对露骨性内容、仇恨言论、暴力、武器图像和其他受限制类别的基于分类器的审核模型;针对文本数据中犯罪策划、威胁和自残短语的基于关键字和正则表达式的筛查;针对源级别风险信号的元数据和来源启发式方法;以及用于发现超出预期分布样本的基于嵌入的异常检测。人工审核和目标审计对选定数据集、基准构建和安全敏感评估的自动化筛选起到补充作用。对于多模态物理 AI 数据(机器人技术、自动驾驶、工业场景),额外的筛选针对无效的动作轨迹、物理上不合理的交互以及不安全的控制序列。合成和模拟生成的数据在纳入前需经过内部验证。训练后应用基准评估和红队测试,以发现世界生成、推理、音频和动作任务中仍然存在的安全漏洞。没有任何大规模数据筛选流程能够保证完全移除所有有害内容;残余风险可能仍然存在,特别是在罕见的边缘情况或开放世界部署环境中。发布后将继续进行持续监控和数据集审查。

数据模态与训练数据规模

模态推理数据样本数生成数据样本数
文本2200 万不适用
图像1900 万7.67 亿
视频100 万3.48 亿
音频不适用1.39 亿
动作不适用800 万

按数据集划分的数据收集方法

  • 混合:自动/传感器、合成、自动化

按数据集划分的标注方法

  • 混合:人工、自动化

特性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成和传感器条件数据,这些数据来源于 NVIDIA 自有数据以及公开可用的、商业许可的数据集。这些数据集经过精心筛选,排除了已知的受限制内容,旨在支持构建一个 Omni 模型,该模型能够学习生成和推理动态物理环境中的世界推理和生成任务。

公开数据集

数据集                                                             样本数量           
OpenImage120万
Coyo700M1亿
YouTube Video3.4亿
UMI450万

私有数据集

数据集                                                             样本数量           
Egocentric700万
Nexar60万
AgiBot20万
HOI30万

合成数据集

数据集样本数量
使用 HiDream-I1 生成的合成图像1500万
使用 Qwen-Image-2512 生成的合成图像1400万
使用 Qwen3-VL 生成的合成文本描述11.15亿

评估数据集

各数据集的数据收集方法

  • 混合:自动/传感器、合成、自动化

各数据集的标注方法

  • 混合:人工、自动化

特性: 训练、测试和评估数据集包含多样化的多模态视频、图像、音频、动作、合成及传感器条件数据,这些数据来源于 NVIDIA 自有数据以及公开可用的商业许可数据集。这些数据集经过精心筛选,排除了已知的受限内容,旨在支持构建一个 Omni 模型,使其能够学习在世界推理和生成任务中对动态物理环境进行生成和推理。

基准测试

有关基础模型的详细评估,请参见我们的技术论文。

人工分析排行榜

开源模型 [2026/05/28/]

人工分析图像转视频排行榜(无音频)—— 开源模型

所有模型 [2026/05/28/](含闭源模型)

人工分析图像转视频排行榜(无音频)—— 含闭源模型的所有模型

使用方法

  • 详情请参见 Cosmos。

提示词升采样

为获得最佳质量,文本提示词应升采样为特定的 JSON 结构。相关说明和代码可参见 此处。

例如,使用 Opus-4.7 进行提示词升采样:

git clone https://github.com/NVIDIA/cosmos-framework.git packages/cosmos-framework
pip install -e packages/cosmos-framework

export PROMPT_UPSAMPLER_ENDPOINT_URL="https://api.anthropic.com/v1/"
export PROMPT_UPSAMPLER_MODEL_NAME="claude-opus-4-7"
export PROMPT_UPSAMPLER_API_TOKEN="<you_token>"

python -m cosmos_framework.inference.prompt_upsampling \
    --input assets/example_original_prompt.txt \
    --image-url assets/example_first_frame.png \
    --output /tmp/upsampled_posttrain_i2v/ \
    --mode posttrain_image2video \
    --endpoint-url "${PROMPT_UPSAMPLER_ENDPOINT_URL}" \
    --model "${PROMPT_UPSAMPLER_MODEL_NAME}" \
    --api-token "${PROMPT_UPSAMPLER_API_TOKEN}" \
    --resolution 480 \
    --aspect-ratio "16,9" \
    --duration 7s

为方便起见,assets/example_original_prompt.txt 的 JSON 上采样版本已保存至 assets/example_prompt.json,并用于以下视频生成示例。

vLLM-Omni

容器

docker pull vllm/vllm-omni:cosmos3

通用调用

您可以使用经过发布测试的 vllm-omni 软件包来部署兼容 OpenAI 的 API 推理端点。 在 8xH200、8xH100 或 8xA100 上运行 nvidia/Cosmos3-Super-Image2Video 的推荐 vLLM-Omni 服务配置如下:

vllm serve nvidia/Cosmos3-Super-Image2Video \
  --omni \
  --host 0.0.0.0 \
  --port 8000 \
  --cfg-parallel-size 2 \
  --ulysses-degree 4 \
  --use-hsdp \
  --hsdp-shard-size 8 \
  --init-timeout 1800

使用此配置,在 H200 GPU 上生成 50 步的视频大约需要 55 秒。对于 2xH200,只需使用 --cfg-parallel-size 2 --use-hsdp --hsdp-shard-size 2,生成一个视频大约需要 3 分钟。通过设置 --tensor-parallel-size 还支持张量并行。设置 --enable-layerwise-offload 有助于在内存较少的 GPU 上降低内存使用率。

下载示例提示词和脚本

推理脚本(scripts/)和示例输入(assets/)位于此模型仓库中。使用 Hugging Face CLI 仅下载这些文件夹:

pip install -U "huggingface_hub[cli]"
hf download nvidia/Cosmos3-Super-Image2Video scripts/ assets/ \
    --local-dir Cosmos3-Super-Image2Video
cd Cosmos3-Super-Image2Video

从下载的仓库根目录运行以下所有命令。

示例:图像转视频生成

通过调用 vLLM-Omni 端点,从首帧图像和 JSON 格式提示词生成视频:

python scripts/gen_video.py \
    --endpoint <endpoint-url> \
    --prompt-file assets/example_prompt.json \
    --image-path assets/example_first_frame.png \
    --output-path scripts/output.mp4

或者,作为一个最小化的独立脚本:

import json
import requests

# 1. Read JSON-upsampled prompt (prompt + negative_prompt)
json_prompt = json.load(open("assets/example_prompt.json"))

# 2. Build your API payload
payload = {
    "prompt": json_prompt["prompt"],
    "negative_prompt": json_prompt["negative_prompt"],
    "size": "832x480",
    "num_frames": 189,
    "fps": 24,
    "num_inference_steps": 50,
    "guidance_scale": 6.0,
    "flow_shift": 5.0,
    "extra_params": json.dumps(
        {
          "use_resolution_template": False,
          "use_duration_template": False,
          "guardrails": True,
        }
    ),
}
files = {"input_reference": ("input.png", open("assets/example_first_frame.png", "rb"), "image/png")}

# 3. Send the POST request
url = "http://localhost:8000/v1/videos/sync"
print("Sending request to server...")
response = requests.post(url, data=payload, files=files, headers={"Accept": "video/mp4"})
response.raise_for_status()

# 4. Save the returned MP4 bytes
with open("/tmp/cosmos3_i2v.mp4", "wb") as video_file:
    video_file.write(response.content)
print("Saved video to /tmp/cosmos3_i2v.mp4")

由 assets/example_first_frame.png 生成的示例输出:

使用自定义提示词进行推理

Cosmos3-Super-Image2Video 采用 JSON 格式的提示词以获得最佳质量。推荐的方式是使用 cosmos-framework。为方便起见,此处提供一个简单的概念验证脚本。它需要兼容 OpenAI 的 VLM 模型,例如 claude-opus-4.7 和 gpt-5.5。

export PROMPT_UPSAMPLER_API_KEY="..."
python scripts/upsample_prompt.py \
    --model-name <model> \
    --base-url <VLM-endpoint-url> \
    --image-path assets/example_first_frame.png \
    --user-prompt "The ice cream melts and gradually disappears. The camera moves around." \
    --output-path scripts/upsampled.json

Diffusers

Cosmos3 已完全支持主流的 HuggingFace Diffusers 软件包。此集成使其成为受支持的推理后端,开发者可借助 Cosmos3OmniPipeline 类轻松将 Cosmos3 的功能(如文本生成图像)整合到自己的工作流中,具体可参考所提供的代码示例(其他模态的示例请参见 HuggingFace Cosmos3 页面)。

安装

如需安装包含 Cosmos3OmniPipeline 的 diffusers:

uv venv --python 3.13 --seed --managed-python
source .venv/bin/activate
uv pip install \
  "diffusers @ git+https://github.com/huggingface/diffusers.git" \
  accelerate \
  av \
  cosmos_guardrail \
  huggingface_hub \
  imageio \
  imageio-ffmpeg \
  torch \
  torchvision \
  transformers

示例:使用 Diffusers 进行图像到视频生成

以下示例在单张 GB200 上生成视频大约需要 170 秒。

import json

import torch
from diffusers import Cosmos3OmniPipeline, UniPCMultistepScheduler
from diffusers.utils import export_to_video, load_image

pipe = Cosmos3OmniPipeline.from_pretrained(
    "nvidia/Cosmos3-Super-Image2Video",
    torch_dtype=torch.bfloat16,
    device_map="cuda",
    enable_safety_checker=True,
)
pipe.scheduler = UniPCMultistepScheduler.from_config(pipe.scheduler.config, flow_shift=5.0)

image = load_image("assets/example_first_frame.png")

# JSON-format prompt (see scripts/upsample_prompt.py to build your own).
spec = json.load(open("assets/example_prompt.json"))
prompt = spec["prompt"]
negative_prompt = spec["negative_prompt"]

result = pipe(
    prompt=prompt,
    negative_prompt=negative_prompt,
    image=image,
    num_frames=189,
    height=480,
    width=832,
    fps=24.0,
    num_inference_steps=50,
    guidance_scale=6.0,
    add_resolution_template=False,
    add_duration_template=False,
)

export_to_video(result.video, "output.mp4", fps=24, quality=7, macro_block_size=1)

Diffusers 生成的示例输出:

局限性

在复杂场景下,Cosmos3 可能会生成不够完美的输出。生成缺陷包括时间不一致、相机或物体运动不稳定、物理交互不精确、音视频同步不准确以及动作状态偏移——尤其是在长时程或高分辨率输出中。推理也可能存在错误:物体状态、因果关系、空间几何、时间顺序、主体意图和未来结果可能被错误推断,复杂或长上下文输入可能会产生虚构实体、不一致的解释或不合理的预测。由于该模型缺乏显式的物理模拟器,3D 几何、4D 时空演化、物体恒存性、接触动力学和物理定律仅为近似模拟——这会导致诸如物体消失或变形、不真实的碰撞以及物理上不合理的运动等缺陷。在分布外环境、安全关键边缘情况以及训练中代表性不足的领域,生成质量会进一步下降。

Cosmos3 的输出不应被视为物理精确的模拟、可靠的真实推理或安全认证的决策依据。涉及机器人控制、自主系统、科学模拟或安全关键规划的应用,在部署前需要额外的验证、外部约束、系统级安全分析和特定领域的防护措施。

推理

加速引擎: PyTorch、vLLM、vLLM-Omni、Hugging Face Diffusers

测试硬件: GB200 和 H100

伦理考量

NVIDIA 认为可信 AI 是一项共同责任,我们已制定相关政策和实践,以支持广泛的 AI 应用开发。开发人员应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并应对未预见的产品误用问题。

请确保您对所有输入图像和视频内容拥有适当的权利和许可;如果图像或视频中包含人物、个人健康信息或知识产权,生成的图像或视频不会模糊或保持所包含图像主体的比例。

用户对模型的输入和输出负责。用户在部署前负责确保该模型的安全集成,包括实施防护措施以及其他安全机制。

有关此模型伦理考量的更多详细信息,请参阅 Model Card++ 的可解释性、偏差、安全与安保和隐私子卡片。请通过此处报告模型质量、风险、安全漏洞或 NVIDIA AI 相关问题。