HuggingFace镜像/gpt-oss-20b

gpt-oss-20b:gpt-oss-20b —— 适用于低延迟和本地或特定用途的场景（210 亿参数，其中 36 亿活跃参数） - AtomGit AI社区

gpt-oss-20b

体验 gpt-oss · 使用指南 · 模型卡片 · OpenAI 博客

欢迎来到 gpt-oss 系列，这是 OpenAI 推出的开放权重模型，专为强大的推理能力、智能体任务及多样化的开发者应用场景而设计。

我们此次发布两种版本的开放模型：

gpt-oss-120b —— 适用于生产环境、通用目的和高阶推理场景，可单卡运行于 80GB GPU（如 NVIDIA H100 或 AMD MI300X）（1170 亿参数，其中 51 亿活跃参数）
gpt-oss-20b —— 适用于低延迟和本地或特定用途的场景（210 亿参数，其中 36 亿活跃参数）

两款模型均基于我们的 harmony 响应格式训练，必须配合 harmony 格式使用，否则无法正常工作。

[!注意] 本文档主要介绍较小的 gpt-oss-20b 模型。如需了解更大规模的模型，请查看 gpt-oss-120b。

核心亮点

宽松的 Apache 2.0 许可：可自由构建，无著佐权限制或专利风险——非常适合实验、定制和商业部署。
可配置推理强度：根据具体使用场景和延迟需求，轻松调整推理强度（低、中、高）。
完整思维链：全面访问模型的推理过程，便于调试并增强输出可信度。该功能不建议向终端用户展示。
支持微调：通过参数微调，可针对特定用例完全定制模型。
智能体能力：支持原生函数调用、网页浏览、Python 代码执行和结构化输出。
MXFP4 量化技术：模型采用 MXFP4 对 MoE 权重进行后训练量化，使 gpt-oss-120b 可运行于单张 80GB GPU（如 NVIDIA H100 或 AMD MI300X），而 gpt-oss-20b 仅需 16GB 内存。所有评估均基于相同的 MXFP4 量化版本进行。

推理示例

Transformers

您可将 gpt-oss-120b 和 gpt-oss-20b 与 Transformers 配合使用。若使用 Transformers 的对话模板，系统将自动应用 harmony 响应格式。若直接使用 model.generate，则需通过对话模板手动应用 harmony 格式，或使用我们的 openai-harmony 工具包。

首先请安装必要的依赖项以配置环境：

pip install -U transformers kernels torch

完成设置后，您可以通过运行以下代码片段来启动模型：

from transformers import pipeline
import torch

model_id = "openai/gpt-oss-20b"

pipe = pipeline(
    "text-generation",
    model=model_id,
    torch_dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "user", "content": "Explain quantum mechanics clearly and concisely."},
]

outputs = pipe(
    messages,
    max_new_tokens=256,
)
print(outputs[0]["generated_text"][-1])

或者，您也可以通过 Transformers Serve 运行该模型，以启动一个兼容 OpenAI 的 Web 服务器：

transformers serve
transformers chat localhost:8000 --model-name-or-path openai/gpt-oss-20b

vLLM

vLLM 推荐使用 uv 进行 Python 依赖管理。您可以使用 vLLM 启动一个兼容 OpenAI 的网页服务器。以下命令将自动下载模型并启动服务器。

uv pip install --pre vllm==0.10.1+gptoss \
    --extra-index-url https://wheels.vllm.ai/gpt-oss/ \
    --extra-index-url https://download.pytorch.org/whl/nightly/cu128 \
    --index-strategy unsafe-best-match

vllm serve openai/gpt-oss-20b

了解更多关于如何将 gpt-oss 与 vLLM 配合使用的信息。

PyTorch / Triton

若需了解如何将此模型与 PyTorch 和 Triton 结合使用，请查阅 gpt-oss 代码库中的参考实现方案。

Ollama

若希望在消费级硬件上运行 gpt-oss，可通过安装 Ollama 后执行以下命令实现。

# gpt-oss-20b
ollama pull gpt-oss:20b
ollama run gpt-oss:20b

进一步了解如何通过 Ollama 使用 gpt-oss。

LM Studio

若您正在使用 LM Studio，可通过以下命令进行下载。

# gpt-oss-20b
lms get openai/gpt-oss-20b

看看我们的精选列表，获取更多 gpt-oss 资源和推理合作伙伴的广泛集合。

下载模型

您可以直接通过 Hugging Face CLI 从 Hugging Face Hub 下载模型权重：

# gpt-oss-20b
huggingface-cli download openai/gpt-oss-20b --include "original/*" --local-dir gpt-oss-20b/
pip install gpt-oss
python -m gpt_oss.chat model/

推理层级

您可根据任务需求在三个层级中调整推理强度：

低层级： 适用于通用对话的快速响应
中层级： 速度与细节的平衡选择
高层级： 深度详尽的推理分析

可通过系统提示设置推理层级，例如："推理层级：高"

工具调用

gpt-oss系列模型特别擅长：

网页浏览（使用内置浏览工具）
遵循预定义架构的函数调用
代理操作（如浏览器自动化任务）

微调功能

两款gpt-oss模型均可针对特定场景进行微调：

较小规模的gpt-oss-20b支持消费级硬件微调，而较大规模的gpt-oss-120b可在单台H100节点完成微调。

引用文献

@misc{openai2025gptoss120bgptoss20bmodel,
      title={gpt-oss-120b & gpt-oss-20b Model Card}, 
      author={OpenAI},
      year={2025},
      eprint={2508.10925},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2508.10925}, 
}