体验 gpt-oss · 指南 · 系统卡片 · OpenAI 博客
欢迎来到 gpt-oss 系列,这是 OpenAI 的开源权重模型,专为强大的推理、代理任务和多样化的开发者用例设计。
我们发布了两款开源模型:
gpt-oss-120b — 适用于生产环境、通用目的和高推理需求的场景,可适配单张 H100 GPU(1170 亿参数,其中 51 亿为活跃参数)gpt-oss-20b — 适用于低延迟、本地或专业化用例(210 亿参数,其中 36 亿为活跃参数)两款模型均基于我们的 harmony 响应格式 训练,使用时需严格遵循该格式,否则将无法正常工作。
[!注意]
本模型卡片专为更大的gpt-oss-120b模型编写。如需了解小模型,请查看gpt-oss-20b。
gpt-oss-120b 可运行于单张 H100 GPU,而 gpt-oss-20b 仅需 16GB 内存即可运行。您可通过 Transformers 使用 gpt-oss-120b 和 gpt-oss-20b。若使用 Transformers 的聊天模板,系统将自动应用 harmony 响应格式。若直接调用 model.generate,需手动应用 harmony 格式(通过聊天模板)或使用我们的 openai-harmony 工具包。
开始前,请安装必要的环境依赖:
pip install -U transformers kernels torch 完成设置后,您可以通过运行以下代码片段来启动模型:
from transformers import pipeline
import torch
model_id = "openai/gpt-oss-120b"
pipe = pipeline(
"text-generation",
model=model_id,
torch_dtype="auto",
device_map="auto",
)
messages = [
{"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]
outputs = pipe(
messages,
max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])或者,您也可以通过 Transformers Serve 运行该模型,快速启动一个兼容 OpenAI 的 Web 服务器:
transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-120bvLLM推荐使用uv进行Python依赖管理。您可以通过vLLM快速部署一个兼容OpenAI的网页服务器。执行以下命令将自动下载模型并启动服务。
uv pip install --pre vllm==0.10.1+gptoss \
--extra-index-url https://wheels.vllm.ai/gpt-oss/ \
--extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
--index-strategy unsafe-best-match
vllm serve openai/gpt-oss-120b若需了解如何结合PyTorch与Triton使用本模型,请查阅gpt-oss代码库中的参考实现方案。
若您计划在消费级硬件上运行gpt-oss,可在安装Ollama后执行以下命令进行操作。
# gpt-oss-120b
ollama pull gpt-oss:120b
ollama run gpt-oss:120b若您使用LM Studio,可通过以下命令进行下载。
# gpt-oss-120b
lms get openai/gpt-oss-120b查看我们的精选资源列表,获取更全面的gpt-oss资源及推理合作伙伴信息。
您可以直接通过Hugging Face CLI从Hugging Face Hub下载模型权重:
# gpt-oss-120b
huggingface-cli download openai/gpt-oss-120b --include "original/*" --local-dir gpt-oss-120b/
pip install gpt-oss
python -m gpt_oss.chat model/您可以根据任务需求调整以下三种推理级别:
可通过系统提示设置推理级别,例如:"Reasoning: high"。
gpt-oss 模型特别擅长:
gpt-oss 系列模型均可针对各类专业场景进行微调。
大模型 gpt-oss-120b 可在单台 H100 节点上完成微调,而小模型 gpt-oss-20b 甚至支持消费级硬件微调。