HuggingFace镜像/gpt-oss-20b
模型介绍文件和版本分析
下载使用量0

gpt-oss-20b

体验 gpt-oss · 使用指南 · 模型卡片 · OpenAI 博客


欢迎来到 gpt-oss 系列,这是 OpenAI 推出的开放权重模型,专为强大的推理能力、智能体任务及多样化的开发者应用场景而设计。

我们此次发布两种版本的开放模型:

  • gpt-oss-120b —— 适用于生产环境、通用目的和高阶推理场景,可单卡运行于 80GB GPU(如 NVIDIA H100 或 AMD MI300X)(1170 亿参数,其中 51 亿活跃参数)
  • gpt-oss-20b —— 适用于低延迟和本地或特定用途的场景(210 亿参数,其中 36 亿活跃参数)

两款模型均基于我们的 harmony 响应格式训练,必须配合 harmony 格式使用,否则无法正常工作。

[!注意] 本文档主要介绍较小的 gpt-oss-20b 模型。如需了解更大规模的模型,请查看 gpt-oss-120b。

核心亮点

  • 宽松的 Apache 2.0 许可:可自由构建,无著佐权限制或专利风险——非常适合实验、定制和商业部署。
  • 可配置推理强度:根据具体使用场景和延迟需求,轻松调整推理强度(低、中、高)。
  • 完整思维链:全面访问模型的推理过程,便于调试并增强输出可信度。该功能不建议向终端用户展示。
  • 支持微调:通过参数微调,可针对特定用例完全定制模型。
  • 智能体能力:支持原生函数调用、网页浏览、Python 代码执行和结构化输出。
  • MXFP4 量化技术:模型采用 MXFP4 对 MoE 权重进行后训练量化,使 gpt-oss-120b 可运行于单张 80GB GPU(如 NVIDIA H100 或 AMD MI300X),而 gpt-oss-20b 仅需 16GB 内存。所有评估均基于相同的 MXFP4 量化版本进行。

推理示例

Transformers

您可将 gpt-oss-120b 和 gpt-oss-20b 与 Transformers 配合使用。若使用 Transformers 的对话模板,系统将自动应用 harmony 响应格式。若直接使用 model.generate,则需通过对话模板手动应用 harmony 格式,或使用我们的 openai-harmony 工具包。

首先请安装必要的依赖项以配置环境:

pip install -U transformers kernels torch 

完成设置后,您可以通过运行以下代码片段来启动模型:

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-20b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

或者,您也可以通过 Transformers Serve 运行该模型,以启动一个兼容 OpenAI 的 Web 服务器:

transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b

了解更多关于如何将 gpt-oss 与 Transformers 结合使用的信息。

vLLM

vLLM 推荐使用 uv 进行 Python 依赖管理。您可以使用 vLLM 启动一个兼容 OpenAI 的网页服务器。以下命令将自动下载模型并启动服务器。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

vllm serve openai/gpt-oss-20b

了解更多关于如何将 gpt-oss 与 vLLM 配合使用的信息。

PyTorch / Triton

若需了解如何将此模型与 PyTorch 和 Triton 结合使用,请查阅 gpt-oss 代码库中的参考实现方案。

Ollama

若希望在消费级硬件上运行 gpt-oss,可通过 安装 Ollama 后执行以下命令实现。

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

进一步了解如何通过 Ollama 使用 gpt-oss。

LM Studio

若您正在使用 LM Studio,可通过以下命令进行下载。

# gpt-oss-20b
lms get openai/gpt-oss-20b

看看我们的精选列表,获取更多 gpt-oss 资源和推理合作伙伴的广泛集合。


下载模型

您可以直接通过 Hugging Face CLI 从 Hugging Face Hub 下载模型权重:

# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/

推理层级

您可根据任务需求在三个层级中调整推理强度:

  • 低层级: 适用于通用对话的快速响应
  • 中层级: 速度与细节的平衡选择
  • 高层级: 深度详尽的推理分析

可通过系统提示设置推理层级,例如:"推理层级:高"

工具调用

gpt-oss系列模型特别擅长:

  • 网页浏览(使用内置浏览工具)
  • 遵循预定义架构的函数调用
  • 代理操作(如浏览器自动化任务)

微调功能

两款gpt-oss模型均可针对特定场景进行微调:

较小规模的gpt-oss-20b支持消费级硬件微调,而较大规模的gpt-oss-120b可在单台H100节点完成微调。

引用文献

@misc{openai2025gptoss120bgptoss20bmodel,
      title={gpt-oss-120b & gpt-oss-20b Model Card}, 
      author={OpenAI},
      year={2025},
      eprint={2508.10925},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2508.10925}, 
}