体验 gpt-oss · 使用指南 · 模型卡片 · OpenAI 博客
欢迎来到 gpt-oss 系列,这是 OpenAI 推出的开放权重模型,专为强大的推理能力、智能体任务及多样化的开发者应用场景而设计。
我们此次发布两种版本的开放模型:
gpt-oss-120b —— 适用于生产环境、通用目的和高阶推理场景,可单卡运行于 80GB GPU(如 NVIDIA H100 或 AMD MI300X)(1170 亿参数,其中 51 亿活跃参数)gpt-oss-20b —— 适用于低延迟和本地或特定用途的场景(210 亿参数,其中 36 亿活跃参数)两款模型均基于我们的 harmony 响应格式训练,必须配合 harmony 格式使用,否则无法正常工作。
[!注意] 本文档主要介绍较小的
gpt-oss-20b模型。如需了解更大规模的模型,请查看gpt-oss-120b。
gpt-oss-120b 可运行于单张 80GB GPU(如 NVIDIA H100 或 AMD MI300X),而 gpt-oss-20b 仅需 16GB 内存。所有评估均基于相同的 MXFP4 量化版本进行。您可将 gpt-oss-120b 和 gpt-oss-20b 与 Transformers 配合使用。若使用 Transformers 的对话模板,系统将自动应用 harmony 响应格式。若直接使用 model.generate,则需通过对话模板手动应用 harmony 格式,或使用我们的 openai-harmony 工具包。
首先请安装必要的依赖项以配置环境:
pip install -U transformers kernels torch 完成设置后,您可以通过运行以下代码片段来启动模型:
from transformers import pipeline
import torch
model_id = "openai/gpt-oss-20b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype="auto",
device_map="auto",
)
messages = [
{"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]
outputs = pipe(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])或者,您也可以通过 Transformers Serve 运行该模型,以启动一个兼容 OpenAI 的 Web 服务器:
transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b了解更多关于如何将 gpt-oss 与 Transformers 结合使用的信息。
vLLM 推荐使用 uv 进行 Python 依赖管理。您可以使用 vLLM 启动一个兼容 OpenAI 的网页服务器。以下命令将自动下载模型并启动服务器。
uv pip install --pre vllm==0.10.1+gptoss \
--extra-index-url https://wheels.vllm.ai/gpt-oss/ \
--extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
--index-strategy unsafe-best-match
vllm serve openai/gpt-oss-20b了解更多关于如何将 gpt-oss 与 vLLM 配合使用的信息。
若需了解如何将此模型与 PyTorch 和 Triton 结合使用,请查阅 gpt-oss 代码库中的参考实现方案。
若希望在消费级硬件上运行 gpt-oss,可通过 安装 Ollama 后执行以下命令实现。
# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b若您正在使用 LM Studio,可通过以下命令进行下载。
# gpt-oss-20b
lms get openai/gpt-oss-20b看看我们的精选列表,获取更多 gpt-oss 资源和推理合作伙伴的广泛集合。
您可以直接通过 Hugging Face CLI 从 Hugging Face Hub 下载模型权重:
# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/您可根据任务需求在三个层级中调整推理强度:
可通过系统提示设置推理层级,例如:"推理层级:高"
gpt-oss系列模型特别擅长:
两款gpt-oss模型均可针对特定场景进行微调:
较小规模的gpt-oss-20b支持消费级硬件微调,而较大规模的gpt-oss-120b可在单台H100节点完成微调。
@misc{openai2025gptoss120bgptoss20bmodel,
title={gpt-oss-120b & gpt-oss-20b Model Card},
author={OpenAI},
year={2025},
eprint={2508.10925},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2508.10925},
}