过去几个月,我们观察到一个日益清晰的趋势:为追求更强大、更具智能体能力的人工智能(AI),模型的总参数量和上下文长度都在不断扩展。 我们很高兴分享在满足这些需求方面的最新进展,核心在于通过创新的模型架构提升扩展效率。 我们将这类下一代基础模型命名为Qwen3-Next。
Qwen3-Next-80B-A3B是Qwen3-Next系列的首款模型,具备以下关键增强特性:
Qwen3-Next-80B-A3B在参数效率和推理速度方面均展现出优异性能:

更多详情,请参阅我们的博客文章Qwen3-Next。
[!Note] Qwen3-Next-80B-A3B-Thinking 仅支持思考模式。 为强制模型进行思考,默认聊天模板会自动包含
</think>。 因此,模型输出中仅包含superscript:而没有显式的起始</think>标签属于正常现象。
[!Note] Qwen3-Next-80B-A3B-Thinking 生成的思考内容可能比前代模型更长。 我们强烈建议在高度复杂的推理任务中使用该模型。
Qwen3-Next-80B-A3B-Thinking 具有以下特点:
| Qwen3-30B-A3B-Thinking-2507 | Qwen3-32B Thinking | Qwen3-235B-A22B-Thinking-2507 | Gemini-2.5-Flash Thinking | Qwen3-Next-80B-A3B-Thinking | |
|---|---|---|---|---|---|
| 知识掌握 | |||||
| MMLU-Pro | 80.9 | 79.1 | 84.4 | 81.9 | 82.7 |
| MMLU-Redux | 91.4 | 90.9 | 93.8 | 92.1 | 92.5 |
| GPQA | 73.4 | 68.4 | 81.1 | 82.8 | 77.2 |
| SuperGPQA | 56.8 | 54.1 | 64.9 | 57.8 | 60.8 |
| 推理能力 | |||||
| AIME25 | 85.0 | 72.9 | 92.3 | 72.0 | 87.8 |
| HMMT25 | 71.4 | 51.5 | 83.9 | 64.2 | 73.9 |
| LiveBench 241125 | 76.8 | 74.9 | 78.4 | 74.3 | 76.6 |
| 代码能力 | |||||
| LiveCodeBench v6 (25.02-25.05) | 66.0 | 60.6 | 74.1 | 61.2 | 68.7 |
| CFEval | 2044 | 1986 | 2134 | 1995 | 2071 |
| OJBench | 25.1 | 24.1 | 32.5 | 23.5 | 29.7 |
| 对齐能力 | |||||
| IFEval | 88.9 | 85.0 | 87.8 | 89.8 | 88.9 |
| Arena-Hard v2* | 56.0 | 48.4 | 79.7 | 56.7 | 62.3 |
| WritingBench | 85.0 | 79.0 | 88.3 | 83.9 | 84.6 |
| 智能体能力 | |||||
| BFCL-v3 | 72.4 | 70.3 | 71.9 | 68.6 | 72.0 |
| TAU1-Retail | 67.8 | 52.8 | 67.8 | 65.2 | 69.6 |
| TAU1-Airline | 48.0 | 29.0 | 46.0 | 54.0 | 49.0 |
| TAU2-Retail | 58.8 | 49.7 | 71.9 | 66.7 | 67.8 |
| TAU2-Airline | 58.0 | 45.5 | 58.0 | 52.0 | 60.5 |
| TAU2-Telecom | 26.3 | 27.2 | 45.6 | 31.6 | 43.9 |
| 多语言能力 | |||||
| MultiIF | 76.4 | 73.0 | 80.6 | 74.4 | 77.8 |
| MMLU-ProX | 76.4 | 74.6 | 81.0 | 80.2 | 78.7 |
| INCLUDE | 74.4 | 73.7 | 81.0 | 83.9 | 78.9 |
| PolyMATH | 52.6 | 47.4 | 60.1 | 49.8 | 56.3 |
*:为保证可复现性,我们报告的是由 GPT-4.1 评估的胜率。
Qwen3-Next 的代码已合并至 Hugging Face transformers 的主分支。
pip install git+https://github.com/huggingface/transformers.git@main使用早期版本时,您会遇到以下错误:
KeyError: 'qwen3_next'以下内容包含一个代码片段,演示了如何使用模型根据给定输入生成内容。
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/Qwen3-Next-80B-A3B-Thinking"
# load the tokenizer and the model
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
dtype="auto",
device_map="auto"
)
# prepare the model input
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "user", "content": prompt},
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True,
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
# conduct text completion
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
# parsing thinking content
try:
# rindex finding 151668 (</think>)
index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
index = 0
thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")
print("thinking content:", thinking_content) # no opening <think> tag
print("content:", content)[!Note] Hugging Face Transformers 中暂未全面支持多 token 预测(MTP)功能。
[!Note] 效率或吞吐量的提升高度依赖具体实现方式。 建议采用专用推理框架(如 SGLang 和 vLLM)来执行推理任务。
[!Tip] 根据不同的推理设置,使用
flash-linear-attention和causal-conv1d可能会获得更优的效率。 详细使用说明和要求请参见上述链接。
部署时,可使用最新版 sglang 或 vllm 创建兼容 OpenAI 的 API 端点。
SGLang 是一个用于大语言模型和视觉语言模型的快速服务框架。 通过 SGLang 可以启动具备 OpenAI 兼容 API 服务的服务器。
Qwen3-Next 需要 sglang>=0.5.2 版本,可通过以下命令安装:
pip install 'sglang[all]>=0.5.2'有关更多详情,请参见其文档。
以下命令可用于在 4 块 GPU 上通过张量并行创建一个 API 端点,地址为 http://localhost:30000/v1,最大上下文长度为 256K tokens。
python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Thinking --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1 --mem-fraction-static 0.8以下是 MTP 推荐使用的命令,其余设置与上文相同:
python -m sglang.launch_server --model-path Qwen/Qwen3-Next-80B-A3B-Thinking --port 30000 --tp-size 4 --context-length 262144 --reasoning-parser deepseek-r1 --mem-fraction-static 0.8 --speculative-algo NEXTN --speculative-num-steps 3 --speculative-eagle-topk 1 --speculative-num-draft-tokens 4[!Note] 默认上下文长度为 256K。 若遇到内存不足(OOM)问题,可考虑将上下文长度减小。 但由于模型进行推理可能需要更长的 token 序列,因此强烈建议使用大于 131,072 的上下文长度。
同时,请参考 SGLang 关于 Qwen3-Next 的使用指南。
vLLM 是一个用于大型语言模型(LLMs)的高吞吐量且内存高效的推理和服务引擎。 vLLM 可用于启动具有 OpenAI 兼容 API 服务的服务器。
Qwen3-Next 需要 vllm>=0.10.2,可通过以下方式安装:
pip install 'vllm>=0.10.2'有关更多详情,请参见其文档。
以下命令可用于在 4 块 GPU 上通过张量并行创建一个 API 端点,地址为 http://localhost:8000/v1,最大上下文长度为 256K tokens。
vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --reasoning-parser deepseek_r1以下是 MTP 推荐使用的命令,其余设置与上文相同:
vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144 --reasoning-parser deepseek_r1 --speculative-config '{"method":"qwen3_next_mtp","num_speculative_tokens":2}'[!Note] 默认上下文长度为 256K。 若遇到内存不足(OOM)问题,可考虑将上下文长度调小。 但由于模型进行推理可能需要更长的 token 序列,因此强烈建议在条件允许时使用大于 131,072 的上下文长度。
另请参考 vLLM 关于 Qwen3-Next 的使用指南。
Qwen3 在工具调用能力方面表现卓越。建议使用 Qwen-Agent 以充分发挥 Qwen3 的智能体能力。Qwen-Agent 内部封装了工具调用模板和工具调用解析器,可大幅降低编码复杂度。
要定义可用工具,您可以使用 MCP 配置文件、使用 Qwen-Agent 的集成工具,或自行集成其他工具。
from qwen_agent.agents import Assistant
# Define LLM
# Using Alibaba Cloud Model Studio
llm_cfg = {
'model': 'Qwen3-Next-80B-A3B-Thinking',
'model_type': 'qwen_dashscope',
}
# Using OpenAI-compatible API endpoint. It is recommended to disable the reasoning and the tool call parsing
# functionality of the deployment frameworks and let Qwen-Agent automate the related operations. For example,
# `vllm serve Qwen/Qwen3-Next-80B-A3B-Thinking --served-model-name Qwen3-Next-80B-A3B-Thinking --port 8000 --tensor-parallel-size 4 --max-model-len 262144`.
#
# llm_cfg = {
# 'model': 'Qwen3-Next-80B-A3B-Thinking',
#
# # Use a custom endpoint compatible with OpenAI API:
# 'model_server': 'http://localhost:8000/v1', # api_base without reasoning and tool call parsing
# 'api_key': 'EMPTY',
# 'generate_cfg': {
# 'thought_in_content': True,
# },
# }
# Define Tools
tools = [
{'mcpServers': { # You can specify the MCP configuration file
'time': {
'command': 'uvx',
'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
},
"fetch": {
"command": "uvx",
"args": ["mcp-server-fetch"]
}
}
},
'code_interpreter', # Built-in tools
]
# Define Agent
bot = Assistant(llm=llm_cfg, function_list=tools)
# Streaming generation
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ Introduce the latest developments of Qwen'}]
for responses in bot.run(messages=messages):
pass
print(responses)Qwen3-Next 原生支持最长 262,144 tokens 的上下文长度。 当对话总长度(含输入和输出)远超此限制时,建议使用 RoPE 缩放技术来有效处理长文本。 我们已通过 YaRN 方法验证了模型在最长 100 万 tokens 上下文长度下的性能。
目前已有多个推理框架支持 YaRN,例如 transformers、vllm 和 sglang。
通常,在支持的框架中启用 YaRN 有两种方式:
修改模型文件:
在 config.json 文件中,添加 rope_scaling 字段:
{
...,
"rope_scaling": {
"rope_type": "yarn",
"factor": 4.0,
"original_max_position_embeddings": 262144
}
}传递命令行参数:
对于 vllm,可使用
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1 vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}' --max-model-len 1010000 对于 sglang,可使用
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":262144}}' --context-length 1010000[!NOTE] 所有主流开源框架均实现了静态 YaRN,这意味着缩放因子不随输入长度变化,可能会影响短文本的性能。 建议仅在需要处理长上下文时才添加
rope_scaling配置。 同时,建议根据需要调整factor。例如,若应用的典型上下文长度为 524,288 tokens,则将factor设置为 2.0 更佳。
为获得最佳性能,建议采用以下设置:
采样参数:
Temperature=0.6、TopP=0.95、TopK=20 和 MinP=0。presence_penalty 参数调整在 0 到 2 之间,以减少无意义重复。但较高的取值偶尔可能导致语言混杂,并略微降低模型性能。充足的输出长度:对于大多数查询,建议使用 32,768 tokens 的输出长度。在数学和编程竞赛等高度复杂问题的基准测试中,建议将最大输出长度设置为 81,920 tokens。这能为模型提供足够空间生成详细全面的响应,从而提升整体性能。
标准化输出格式:进行基准测试时,建议通过提示词标准化模型输出。
answer 字段中仅填入选项字母,例如:"answer": "C"。”历史记录中不含思考内容:在多轮对话中,历史模型输出应仅包含最终输出部分,无需包含思考过程。提供的 Jinja2 对话模板已实现此功能。但对于未直接使用 Jinja2 对话模板的框架,需由开发者确保遵循此最佳实践。
如果您觉得我们的研究工作对您有所帮助,欢迎引用我们的成果。
@misc{qwen3technicalreport,
title={Qwen3 Technical Report},
author={Qwen Team},
year={2025},
eprint={2505.09388},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.09388},
}
@article{qwen2.5-1m,
title={Qwen2.5-1M Technical Report},
author={An Yang and Bowen Yu and Chengyuan Li and Dayiheng Liu and Fei Huang and Haoyan Huang and Jiandong Jiang and Jianhong Tu and Jianwei Zhang and Jingren Zhou and Junyang Lin and Kai Dang and Kexin Yang and Le Yu and Mei Li and Minmin Sun and Qin Zhu and Rui Men and Tao He and Weijia Xu and Wenbiao Yin and Wenyuan Yu and Xiafei Qiu and Xingzhang Ren and Xinlong Yang and Yong Li and Zhiying Xu and Zipeng Zhang},
journal={arXiv preprint arXiv:2501.15383},
year={2025}
}