具备智能体思维的智能体模型
今天,我们正式发布并开源新一代模型 Nex-N2——一款专为真实世界生产力场景打造的智能体模型。凭借一流的编码能力和智能体能力,Nex-N2 能够在真实环境中持续推进复杂、长周期任务,交付稳定的端到端成果。
过去一年,以 Vibe Coding 和 Harness Engineering 为代表的范式转变,不断重新定义着大语言模型智能体的能力边界。从对话交互、逻辑推理,到能够结合环境反馈执行长周期任务的智能体,模型需要处理的任务日益复杂,上下文长度不断增加,环境也更贴近现实。下一代模型竞争的核心,已不再是模型是否能够思考,而是能否可靠且高效地将思考转化为可执行、可验证、可迭代的行动。
Nex-N2 并未将推理、工具使用和环境执行视为独立能力,而是通过智能体思维框架将它们统一起来。该框架将需求理解、任务规划、代码实现、环境反馈、评估调试及持续迭代整合为一个完整闭环。此框架包含两部分:
在智能体编码、深度研究、工具调用和终端执行等真实智能体工作流中,Nex-N2 均达到一流性能,在多项权威基准测试中较上一代 Nex-N1 取得显著提升。在 OpenClaw 单人公司工作流、端到端游戏开发、网页及多模态生成等实际生产力场景中,它同样展现出卓越的可用性、鲁棒性和稳定性。
秉承我们对开源的承诺,今日起,我们正式将Nex-N2-Pro与Nex-N2-mini以开源模型形式发布。
欢迎广大开发者与企业集成并试用Nex-N2,同时也期待您的宝贵反馈。
我们从智能体任务、编码任务及通用任务三个维度,在真实智能体工作流中对Nex-N2进行了评估,覆盖工具调用、基于搜索的决策、软件工程及终端执行等多个基准测试。Nex-N2-Pro展现出与GPT-5.5、Opus 4.7等顶级模型相媲美的强劲性能:在编码领域表现卓越(如Terminal-Bench 2.1得分75.3),擅长长周期任务(GDPval得分1585),尤其在SWE-Atlas、DeepSWE等新兴基准测试中体现出强大的泛化能力与竞争力。在通用能力与核心推理方面,其水平与前沿领先模型持平。

Nex-N2提供两个版本,均基于Qwen3.5系列进行后训练:Nex-N2-Pro(基于Qwen3.5-397B-A17B构建)和Nex-N2-mini(基于Qwen3.5-35B-A3B-Base构建),可满足不同延迟与质量的权衡需求。下表展示了它们与主流闭源及开源模型在完整评估套件中的得分情况。
| 基准测试 | Nex-N2-mini | Nex-N2-Pro | GPT-5.5 | Opus 4.7 | Kimi-K2.6 | GLM-5.1 | MiniMax M3 | DeepSeek-V4-Pro |
|---|---|---|---|---|---|---|---|---|
| 智能体能力 | ||||||||
| BrowseComp | 74.1 | 83.7 | 84.4 | 79.8 | 83.2 | 79.3 | 83.5 | 83.4 |
| GDPval | 1402 | 1585 | 1769 | 1753 | 1481 | 1535 | - | 1554 |
| Toolathlon | 33.3 | 51.9 | 55.6 | 52.8 | 50.0 | 40.7 | - | 51.8 |
| WildClawBench | 47.7 | 53.5 | 58.2 | 62.2 | - | 48.2 | - | 43.7 |
| WideSearch | 62.0 | 75.6 | - | - | 80.8 | - | - | - |
| TAU3 | 65.9 | 71.1 | - | - | - | 70.6 | - | - |
| 编码与软件工程 | ||||||||
| SWE-Bench Pro | 50.2 | 58.8 | 58.6 | 64.3 | 58.6 | 58.4 | 59.0 | 55.4 |
| Terminal-Bench 2.1 | 60.7 | 75.3 | 83.4 | 69.7 | - | 58.7 | 66.0 | 72.0 |
| DeepSWE | 8.0 | 33.6 | 70 | 54 | 24 | 18 | - | 8 |
| SWE-Bench Verified | 74.4 | 80.8 | 82.9 | 87.6 | 80.2 | - | 80.5 | 80.6 |
| SWE Atlas QnA | 31.5 | 37.9 | 45.4 | 45.2 | - | - | 37.9 | - |
| SWE Atlas RF | 30.0 | 32.9 | 44.8 | 48.6 | - | - | - | - |
| SWE Atlas TW | 23.3 | 40.0 | 42.6 | 38.2 | - | - | 30.8 | - |
| 通用能力与推理 | ||||||||
| GPQA Diamond | 82.6 | 90.7 | 93.6 | 94.2 | 90.5 | 86.2 | - | 90.1 |
| IFEval | 89.1 | 94.0 | - | - | 94.5 | 94.5 | - | 91.9 |
| Apex | 9.4 | 36.5 | - | - | 24.0 | 11.5 | - | 38.3 |
注意: 为使Nex系列模型发挥最佳性能,建议使用我们定制的
sglang分支进行部署。
首先,安装我们的sglang分支:
# Use the customized `sglang` fork
git clone https://github.com/nex-agi/sglang.git
cd sglang
# Install the python packages
pip install --upgrade pip
pip install -e "python"启动服务器(在两台配备 8× H100 显卡且安装 CUDA 13.0 的服务器上的示例):
# Multi-node (2 nodes). Run the same command on every node with:
# <node-rank> = 0 on the head node, 1 on the other node
# <node0-ip> = IP of the head node (reachable from all others)
python -m sglang.launch_server \
--model-path /path/to/your/model \
--tp 16 \
--nnodes 2 \
--node-rank <node-rank> \
--dist-init-addr <node0-ip>:20000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer启动服务器(在配备 2× H100 和 CUDA 13.0 的服务器上的示例):
python -m sglang.launch_server \
--model-path /path/to/your/model \
--tp 2 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer我们还提供预构建的 Docker 镜像,其中预装了我们定制的 sglang 分支:nexagi/sglang:v0.5.12。启动命令与上文相同。
# Multi-node (2 nodes). Run the same command on every node with:
# <node-rank> = 0 on the head node, 1 on the other node
# <node0-ip> = IP of the head node (reachable from all others)
docker run --gpus all --shm-size 32g --network host \
-v /path/to/your/model:/model \
nexagi/sglang:v0.5.12 \
python3 -m sglang.launch_server \
--model-path /model \
--tp 16 \
--nnodes 2 \
--node-rank <node-rank> \
--dist-init-addr <node0-ip>:20000 \
--host 0.0.0.0 --port 30000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer单节点配备 2× H100:
docker run --gpus all --shm-size 32g --ipc=host \
-p 30000:30000 \
-v /path/to/your/model:/model \
nexagi/sglang:v0.5.12 \
python3 -m sglang.launch_server \
--model-path /model \
--tp 2 \
--host 0.0.0.0 --port 30000 \
--reasoning-parser qwen3 \
--tool-call-parser qwen3_coder \
--mamba-scheduler-strategy extra_buffer为获得最佳生成质量,建议使用以下采样参数:
temperature:0.7top_p:0.95top_k:40Nex系列模型支持强大的函数调用功能。若要启用函数调用,启动服务器时需添加 --tool-call-parser qwen3_coder 标志:
python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coderNex系列模型会输出明确的推理轨迹。添加 --reasoning-parser qwen3 标志,可将推理内容与最终响应分离解析。它可以与上述的函数调用解析器结合使用:
python -m sglang.launch_server --model-path /path/to/your/model --tool-call-parser qwen3_coder --reasoning-parser qwen3