gpt-oss-120b:gpt-oss-120b是OpenAI开源的高性能大模型，专为复杂推理任务和智能代理场景设计。这款拥有1170亿参数的混合专家模型采用原生MXFP4量化技术，可单卡部署在H100 GPU上运行。它支持可调节的推理强度（低/中/高），完整思维链追溯，并内置函数调用、网页浏览等智能体能力。模型遵循Apache 2.0许可，允许自由商用和微调，特别适合需要生产级推理能力的开发者。通过Transformers、vLLM等主流框架即可快速调用，还能在消费级硬件通过Ollama运行，为AI应用开发提供强大而灵活的基础设施。【此简介由AI生成】 - AtomGit AI社区

gpt-oss-120b

体验 gpt-oss · 指南 · 系统卡片 · OpenAI 博客

欢迎来到 gpt-oss 系列，这是 OpenAI 的开源权重模型，专为强大的推理、代理任务和多样化的开发者用例设计。

我们发布了两款开源模型：

gpt-oss-120b — 适用于生产环境、通用目的和高推理需求的场景，可适配单张 H100 GPU（1170 亿参数，其中 51 亿为活跃参数）
gpt-oss-20b — 适用于低延迟、本地或专业化用例（210 亿参数，其中 36 亿为活跃参数）

两款模型均基于我们的 harmony 响应格式训练，使用时需严格遵循该格式，否则将无法正常工作。

[!注意]
本模型卡片专为更大的 gpt-oss-120b 模型编写。如需了解小模型，请查看 gpt-oss-20b。

核心亮点

宽松的 Apache 2.0 许可证：无著佐权限制或专利风险，自由构建模型——适合实验、定制和商业部署。
可配置推理强度：根据具体用例和延迟需求，轻松调整推理强度（低、中、高）。
完整思维链：全面访问模型的推理过程，便于调试并增强输出可信度（不推荐向终端用户展示）。
支持微调：通过参数微调，完全适配您的特定用例。
代理能力：支持原生功能调用、网页浏览、Python 代码执行和结构化输出。
原生 MXFP4 量化：模型的 MoE 层采用原生 MXFP4 精度训练，使 gpt-oss-120b 可运行于单张 H100 GPU，而 gpt-oss-20b 仅需 16GB 内存即可运行。

推理示例

Transformers

您可通过 Transformers 使用 gpt-oss-120b 和 gpt-oss-20b。若使用 Transformers 的聊天模板，系统将自动应用 harmony 响应格式。若直接调用 model.generate，需手动应用 harmony 格式（通过聊天模板）或使用我们的 openai-harmony 工具包。

开始前，请安装必要的环境依赖：

pip install -U transformers kernels torch

完成设置后，您可以通过运行以下代码片段来启动模型：

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-120b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

或者，您也可以通过 Transformers Serve 运行该模型，快速启动一个兼容 OpenAI 的 Web 服务器：

transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-120b

详细了解如何结合Transformers使用gpt-oss

vLLM

vLLM推荐使用uv进行Python依赖管理。您可以通过vLLM快速部署一个兼容OpenAI的网页服务器。执行以下命令将自动下载模型并启动服务。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

vllm serve openai/gpt-oss-120b

详细了解如何通过vLLM使用gpt-oss

PyTorch / Triton

若需了解如何结合PyTorch与Triton使用本模型，请查阅gpt-oss代码库中的参考实现方案。

Ollama

若您计划在消费级硬件上运行gpt-oss，可在安装Ollama后执行以下命令进行操作。

# gpt-oss-120b
ollama pull gpt-oss:120b
ollama run gpt-oss:120b

详细了解如何通过Ollama使用gpt-oss

LM Studio

若您使用LM Studio，可通过以下命令进行下载。

# gpt-oss-120b
lms get openai/gpt-oss-120b

查看我们的精选资源列表，获取更全面的gpt-oss资源及推理合作伙伴信息。

下载模型

您可以直接通过Hugging Face CLI从Hugging Face Hub下载模型权重：

# gpt-oss-120b
huggingface-cli download openai/gpt-oss-120b --include "original/*" --local-dir gpt-oss-120b/
pip install gpt-oss
python -m gpt_oss.chat model/

推理级别

您可以根据任务需求调整以下三种推理级别：

低：适用于常规对话，响应迅速。
中：速度与细节兼顾，平衡性佳。
高：提供深入细致的分析。

可通过系统提示设置推理级别，例如："Reasoning: high"。

工具调用

gpt-oss 模型特别擅长：

网页浏览（使用内置浏览工具）
基于预定义模式的函数调用
自动化代理操作（如浏览器任务）

微调

gpt-oss 系列模型均可针对各类专业场景进行微调。

大模型 gpt-oss-120b 可在单台 H100 节点上完成微调，而小模型 gpt-oss-20b 甚至支持消费级硬件微调。