模型概述

描述：

NVIDIA Qwen3.6-35B-A3B-NVFP4模型是阿里巴巴Qwen3.6-35B-A3B模型的量化版本，后者是一款采用优化Transformer架构的自回归语言模型。更多信息请查看此处。NVIDIA Qwen3.6-35B-A3B-NVFP4模型通过Model Optimizer进行量化。

本模型可用于商业/非商业用途。

第三方社区说明

本模型并非由NVIDIA拥有或开发。该模型是根据第三方的特定应用和使用场景需求开发构建的；有关非NVIDIA方（Qwen3.6-35B-A3B）模型卡片的信息，请参见阿里巴巴提供的链接(Qwen3.6-35B-A3B) Model Card。

参考资料

NVIDIA Model Optimizer：https://github.com/NVIDIA/Model-Optimizer

许可协议/使用条款：

Apache license 2.0

部署地区：

全球

用例：

适用于希望采用现成预量化模型部署到AI Agent系统、聊天机器人、RAG系统及其他AI驱动应用中的开发者。

发布日期：

于2026年5月28日通过Hugging Face发布，链接：https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4

模型架构：

架构类型： Transformers
网络架构： 混合注意力机制的专家混合（Mixture-of-Experts, MoE）
模型参数数量： 总计350亿，激活参数30亿

输入：

输入类型： 文本、图像、视频
输入格式： 字符串、红绿蓝（RGB）、视频（MP4/WebM）
输入参数： 一维（1D）、二维（2D）、三维（3D）
输入相关其他属性： 上下文长度可达262K

输出：

输出类型： 文本
输出格式： 字符串
输出参数： 一维（1D）：序列
输出相关其他属性： 无

我们的AI模型经过设计和/或优化，可在NVIDIA GPU加速系统上运行。通过利用NVIDIA的硬件（如GPU核心）和软件框架（如CUDA库），与仅使用CPU的解决方案相比，该模型实现了更快的训练和推理速度。

软件集成：

支持的运行时引擎：

vLLM

支持的硬件微架构兼容性：

NVIDIA Hopper、NVIDIA Blackwell

推荐操作系统：

Linux

将基础模型和微调模型集成到 AI 系统中，需要使用特定用例数据进行额外测试，以确保安全有效的部署。遵循 V 模型方法论，在单元和系统层面进行迭代测试与验证至关重要，这有助于在部署前降低风险、满足技术和功能要求，并确保符合安全与伦理标准。

模型版本：

模型版本为 NVFP4 1.0 版，使用 nvidia-modelopt v0.44.0 进行量化

训练和评估数据集：

校准数据集：

链接： cnn_dailymail、Nemotron-Post-Training-Dataset-v2
数据集的数据收集方法： 自动化。
数据集的标注方法： 自动化。
属性： cnn_dailymail 数据集是一个英语语言数据集，包含略多于 30 万篇由 CNN 和《每日邮报》记者撰写的独特新闻文章。Nemotron-Post-Training-Dataset-v2 是由 NVIDIA 精心策划的训练后数据集，包含跨多种主题的多轮对话。

训练数据集：

数据模态： 未公开
数据集的数据收集方法： 未公开
数据集的标注方法： 未公开
数据大小： 未公开
属性： 未公开

评估数据集：

数据集： MMLU Pro、GPQA Diamond、τ²-Bench Telecom、MMMU Pro、SciCode、AIME 2025、AA-LCR、IFBench
数据集的数据收集方法： 混合：自动化、人工
数据集的标注方法： 混合：人工、自动化
属性： 我们在基于文本的推理和编码基准上对模型进行了评估：MMLU Pro 是一个多任务语言理解基准，包含跨多个学术领域的具有挑战性的多项选择题；GPQA Diamond 包含 448 道由生物学、物理学和化学领域专家编写的研究生级多项选择题；τ²-Bench Telecom 评估在双控电信客户服务场景中的智能体工具使用和策略遵守能力，在这些场景中，模型与模拟用户和外部工具交互以解决账户问题；MMMU Pro 是大规模多学科多模态理解基准（Massive Multi-discipline Multimodal Understanding benchmark）的更具挑战性的版本，通过扩展的答案选项和纯视觉输入设置，衡量跨多个学科的大学级多模态推理能力；SciCode 评估科学编码能力；AIME 2025 包含美国数学邀请赛的题目；AA-LCR（Artificial Analysis Long Context Recall，人工分析长上下文回忆）评估模型从长输入上下文中准确检索和回忆信息的能力；IFBench 是一个用于评估在各种结构化任务约束下指令遵循能力的基准。

推理：

加速引擎： vLLM
测试硬件： NVIDIA GB300

训练后量化

本模型通过将Qwen3.6-35B-A3B的权重量化为NVFP4数据类型得到，可直接用于vLLM推理。仅对MoE中Transformer块内线性算子的权重和激活进行量化。此优化将每个参数的比特数从16位降至4位，磁盘大小和GPU内存需求减少约3.06倍。

使用方法

如需使用vLLM部署此 checkpoint，可启动 vllm/vllm-openai:nightly 镜像并运行以下示例命令：

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3

对于 NVIDIA DGX Spark，我们建议设置以下环境变量并使用此 vllm serve 命令：

export VLLM_USE_FLASHINFER_MOE_FP4=0
export VLLM_FP8_MOE_BACKEND=flashinfer_cutlass
export FLASHINFER_DISABLE_VERSION_CHECK=1
export CUTE_DSL_ARCH=sm_121a

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --tensor-parallel-size 1 --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len 65536 --max-num-seqs 4 --max-num-batched-tokens 8192 --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config '{"method":"mtp","num_speculative_tokens":3,"moe_backend":"triton"}'

评估

准确性基准测试结果如下表所示：

精度	MMLU Pro	GPQA Diamond	τ²-Bench Telecom	SciCode	AIME 2025	AA-LCR	IFBench	MMMU PRO
BF16	85.6	84.9	95.5	40.8	89.2	62.0	62.3	74.1
NVFP4	85.0	84.8	94.7	40.6	88.8	62.0	62.8	74.5

基准模型：Qwen3.6-35B-A3B。 SciCode 的参数设置为 temperature=0.6，top_p=0.95，最大 token 数 131072；其他测试的参数设置为 temperature=1.0，top_p=0.95，最大 token 数 131072

模型局限性

基础模型的训练数据包含从互联网上抓取的有毒语言和社会偏见内容。因此，该模型可能会放大这些偏见，尤其是在收到有毒提示时可能会返回有毒响应。即使提示本身不包含任何明确冒犯性内容，模型生成的答案也可能不准确、遗漏关键信息，或包含无关、冗余的文本，从而产生社会不可接受或不受欢迎的内容。

伦理考量

NVIDIA 认为可信 AI 是一项共同责任，我们已制定相关政策和实践，以支持广泛 AI 应用的开发。开发人员应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并应对不可预见的产品误用问题。

请确保您对所有输入的图像和视频内容拥有适当的权利和许可；如果图像或视频中包含人物、个人健康信息或知识产权，生成的图像或视频不会模糊或保持所包含图像主体的比例。

如发现模型质量、风险、安全漏洞或 NVIDIA AI 相关问题，请通过此处报告。