HuggingFace镜像/Qwythos-9B-Claude-Mythos-5-1M
模型介绍文件和版本分析
下载使用量0

Qwythos-9B

Qwythos-9B

由 Empero 开发

Qwythos-9B 是一款全参数推理模型,基于深度无审查的 Qwen3.5-9B 基座构建,并在超过5 亿 tokens 的高质量 Claude Mythos 和 Claude Fable 轨迹数据上进行了后训练,其思维链由 Empero AI 的内部工具 rethink 生成。

成果是一个紧凑、快速且能力显著增强的 9B 推理模型。主要功能包括:

  • 🔭 1,048,576 token 上下文——Qwythos 默认启用 YaRN rope 缩放,开箱即支持完整的 100 万 token 上下文窗口。这是目前所有 9B 级开源权重模型中最长的上下文窗口之一,适用于全代码库推理、多文档研究和长智能体轨迹任务。
  • 📈 在匹配评估中超越基座模型:MMLU 提升 34 分,gsm8k-strict 提升 30 分,gsm8k-flex 提升 19 分。
  • 🛠 原生函数调用——遵循 Qwen3.5 规范,无需额外包装,无需针对特定工具进行微调。
  • 🎯 工具辅助自校正——当配备 Python 执行器和网络搜索工具时,Qwythos 在涵盖数学、网络安全、临床药理学和生物化学的7 个测试提示中全部生成了带来源引用的事实性正确答案。

Qwythos 特意设计为无审查模型。它旨在认真处理网络安全、红队方法论、生物学、药理学和临床医学等领域的高技术性问题——在这些领域,过度对齐的模型往往会拒绝回答、含糊其辞或用无用的免责声明替代实质性内容。


主要结果

Qwythos 与基座 Qwen3.5-9B 在七项基准测试中的对比

相同的测试框架。相同的采样参数。相同的提示。优势真实可见。

任务指标基座 Qwen3.5-9BQwythos-9B差异
gsm8kexact_match (灵活)0.6700.860+0.190
gsm8kexact_match (严格)0.5100.810+0.300
mmluacc0.2320.575+0.343
arc_challengeacc0.4700.490+0.020
arc_challengeacc_norm0.4000.410+0.010
gpqa_diamond (CoT, 0-shot)exact_match (灵活)0.6300.580−0.050

所有数据均使用 lm-evaluation-harness、HF 后端、--apply_chat_template、Qwen3.5 采样参数(temperature=0.6, top_p=0.95, top_k=20)和 --limit 100 生成。完整的任务细分和科目细分(MMLU)详见 evals/lm_eval_results.md。原始 results*.json 和样本级 samples_*.jsonl 可按需提供。

MMLU 提升 34.3 分是最突出的亮点。Qwythos 在所有 57 个科目中的平均分为0.575,在政府/政治学(0.78)、大学生物学(0.77)和概念物理学(0.74)等科目中表现尤为突出——这使其在相同评估条件下显著优于大多数 9B 推理模型。任何 9B 模型的 MMLU 绝对数值都会受到测试框架、少样本数量和聊天模板处理方式的影响;此对比中关键在于两个模型均在完全相同的设置下进行评估。


能力:原生工具调用与自我修正

Qwythos 支持开箱即用的 OpenAI/Qwen3.5 风格函数调用——无需额外封装,无需针对工具进行微调。只需在聊天模板中传入 tools=[...],模型就会按照 Qwen3.5 的规范生成有效的 <tool_call> 块,并确保所需参数完整无误。

我们通过一个包含 7 个提示的测试集对工具使用能力进行了评估,其中既包括能力演示,也包含刻意设计的、闭卷回答必然失败的高难度事实回忆提示:

提示选择的工具结果
计算 sin(π/7) × cos(π/11) 到小数点后 10 位python_executor✅ 0.4163083990(正确,单次调用)
统计 100,000 以下的素数个数python_executor✅ 9592(正确,编写并运行了筛法程序)
CPython 3 的最新稳定版本web_search✅ 找到 3.14.6(2026 年 6 月),3.15 处于测试阶段,并引用了来源
Hashcat 中 Kerberos TGS-REP 的破解模式web_search✅ -m 13100,并找到 4 个佐证来源
PrintNightmare 对应的 CVEweb_search✅ CVE-2021-34527(并正确区分了 CVE-2021-1675 / CVE-2021-34481 等变体)
毒扁豆碱是否适用于有机磷中毒?web_search✅ “不适用于有机磷中毒——使用反而有害。毒扁豆碱适用于抗胆碱能中毒综合征。” 引用了 LITFL 毒理学资料。
GLP-1 中的 DPP-4 切割位点 / 司美格鲁肽的修饰web_search✅ Ala⁸–Glu⁹ 切割位点,司美格鲁肽在第 8 位使用 α-氨基异丁酸 (Aib) ——引用了维基百科和制药来源

7 项全部成功。工具选择始终合理(数学计算 → Python;事实查询 → 搜索)。最下方的四项尤为重要:它们是最难闭卷回忆的四个专业事实——而 Qwythos 在获得合适工具的情况下,每次都能通过搜索、整合多个来源,并生成带有来源引用的正确答案。

包含模型推理过程、所有工具调用、所有返回结果以及最终整合答案的完整记录,请参见 evals/tool_test_outputs.md。

这使得 Qwythos 已准备好部署于检索增强型智能体场景,在这类场景中,模型会验证其细节信息,而非编造内容。


能力:1,048,576 令牌上下文窗口

Qwythos 默认配置了 YaRN rope 缩放技术,实现了 1,048,576 令牌(约 100 万)的上下文窗口——相比原生 262,144 令牌架构扩展了 4 倍。该配置已内置到 config.json 中,加载时会自动应用;无需额外标志、后处理步骤或特定于 YaRN 的分词器:

"rope_parameters": {
  "rope_type": "yarn",
  "factor": 4.0,
  "original_max_position_embeddings": 262144,
  "mrope_interleaved": true,
  "mrope_section": [11, 11, 10],
  "rope_theta": 10000000
},
"max_position_embeddings": 1048576

这是官方的 Qwen3.5 1M 上下文配置方案,其配置与 Qwen 官方模型卡片以及 vLLM/SGLang 部署方案中记录的内容一致。我们已通过内部冒烟测试在约 137k tokens 的情况下,验证了此检查点的长上下文推理能力。

1M 上下文带来的可能性:

  • 全代码库推理。 1M token 的窗口足以轻松容纳数十万行代码的仓库,无需 RAG 分块即可进行跨文件重构、缺陷查找和架构审查。
  • 长智能体轨迹。 具有详细工具输出(大量网络搜索结果集、分页 API 响应、冗长 Python 回溯信息)的多轮工具使用会话,能够在数十轮对话中保持上下文连贯性。
  • 多文档研究。 典型的研究会话(10–20 篇论文 + 笔记 + 用户的工作草稿)可放入一个提示中,在单次前向传播中对所有内容进行综合分析。
  • 长篇科学推理。 基于多篇论文的生物医学或药理学语料库进行 </think> 推理链。

1M 上下文的服务:

# vLLM
vllm serve empero-ai/Qwythos-9B-Claude-Mythos-5-1M --max-model-len 1010000

# SGLang
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1 python -m sglang.launch_server \
  --model-path empero-ai/Qwythos-9B-Claude-Mythos-5-1M --context-length 1010000

实用说明:

  • 完整的1M上下文窗口需要借助张量并行多GPU或激进的KV缓存卸载技术——单张H100/H200显卡可轻松处理256k–512k上下文。当上下文长度低于约256k tokens时,混合Gated-DeltaNet注意力机制能使内存增长保持亚二次曲线,因此长上下文的成本远低于同等规模纯全注意力模型的成本。
  • 因子为4.0的静态YaRN会导致小幅的短上下文质量损失(这是业内已知的YaRN权衡取舍)。对于从不超过原生262k窗口且追求最高短上下文保真度的工作负载,请从附带的config.json.pre_yarn备份文件中,将rope_parameters.rope_type恢复为"default"。

复现工具调用框架

该框架是一个约150行代码的小型Python文件:

  • python_executor(code)——在子进程中运行Python代码(12秒超时,捕获标准输出/标准错误)
  • web_search(query, max_results)——通过ddgs包调用DuckDuckGo搜索

将两者作为tools=参数传递给apply_chat_template,并从模型输出中解析<tool_call>块。解析器支持Qwen3.5的聊天模板格式:

<tool_call>
<function=NAME>
  <parameter=PARAM>value</parameter>
</function>
</tool_call>

Empero 将在 GitHub 上发布参考工具。


采样建议

Qwythos 作为推理模型进行训练,并继承了 Qwen3.5 的思维模式行为。请将以下设置用作默认值:

gen_kwargs = dict(
    do_sample=True,
    temperature=0.6,    # Qwen3.5 thinking-mode recommended
    top_p=0.95,
    top_k=20,
    repetition_penalty=1.05,
    max_new_tokens=16384,  # generous budget for the <think> reasoning block + final answer
)

为何选择这些配置:在一项受控复测中(详见evals/retest_outputs.md),我们针对三个难度最高的事实性提示词,评估了多种采样配置。贪婪解码和极低温度采样(T≤0.3)会退化为重复循环——这是推理模型在此类提示词上的已知失效模式。Qwen3.5推荐的设置(T=0.6)可完全避免此问题,并提供了我们所测得的最佳事实可靠性:在三个复测提示词中,T=0.6时,闭卷审查中标记的六个错误均未再次出现——包括与安全性相关的毒扁豆碱声明、错误归因的CVE以及不正确的hashcat哈希模式。

使用repetition_penalty=1.05——与Qwen默认值1.0的微小偏差,可防止在长文本生成时出现罕见的非终止推理循环。


领域覆盖

Qwythos是一个通用推理模型,特别强调网络安全、生物医学和定量推理。通过对横跨这些领域的25个提示词进行定性样本生成审查(完整记录见evals/sample_generations.md):

  • 网络安全——提供面向防御者的详细SQL注入缓解措施、TLS握手结构、EDR/进程注入检测、Linux强化、MITRE ATT&CK勒索软件杀伤链的演练。
  • 红队方法论——清晰解释参与阶段、范围界定、参与规则、证据处理和报告。尤其擅长社会工程学托词分析和抗钓鱼防御。
  • 生物学/生物化学——CRISPR-Cas9、mRNA疫苗、SARS-CoV-2刺突蛋白、抗生素耐药机制、有机磷酸酯AChE抑制的逐步作用机制。
  • 药理学——扎实掌握受体药理学基础(激动作用、拮抗作用、部分激动作用及实例分析)、他汀类药物作用机制、阿片类药物在脑干水平的呼吸抑制、β受体阻滞剂适应症、窄治疗指数药物的治疗窗推理。
  • 临床医学——ACS胸痛鉴别诊断与检查、2型糖尿病病理生理学与药物类别靶向治疗、脓毒症识别(qSOFA)与集束化治疗。
  • 数学——擅长gsm8k风格的多步骤文字题、minerva风格的竞赛数学;86%的gsm8k正确率,调用python_executor时可验证整数运算。

未经审查的基础模型意味着Qwythos能够实质性地处理这些提示词,而不是拒绝回答、含糊其辞或将答案淹没在免责声明的套话中。推理过程显示在</think>块中;最终答案紧随其后。


模型详情

  • 基础模型:Qwen/Qwen3.5-9B——一种密集型原生多模态架构,采用混合注意力堆叠(3:1 门控 DeltaNet 线性注意力与门控全注意力),约 152k 词汇量,原生长上下文。
  • 微调类型:全参数微调(所有文本主干权重均参与训练)。视觉塔被冻结——训练仅针对文本,因此视觉行为继承自基础模型,未进行调优或测试。
  • 目标:监督微调,仅助手损失(模型仅对助手/补全 tokens 进行评分;提示词被掩码)。
  • 上下文长度:1,048,576 tokens(≈100 万)——config.json 中默认启用 YaRN 位置编码缩放。原生架构上下文为 262,144 tokens;YaRN 系数 4.0 将其扩展至完整的 100 万窗口,无需任何再训练或运行时标志,与 Qwen 官方长上下文方案一致。
  • 许可证:Apache 2.0。

训练数据

Qwythos 在超过 5 亿 tokens 的高质量推理数据上进行了后训练,这些数据来源于:

  • Claude Mythos 和 Claude Fable 交互轨迹——长对话、多轮次问题解决对话,涵盖代码、数学、科学推理、生物医学分析以及智能体工具使用。
  • 由 rethink 内部生成的思维链,rethink 是 Empero AI 的内部思维链生成工具。rethink 生成特意结构化的 </think> 块推理,在确定最终答案之前,逐步进行假设、验证和结论推导——直接塑造了 Qwythos“先推理后回答”的行为模式。

所有数据均规范化为 Qwen3.5 的对话格式。训练采用仅助手损失,因此模型仅对补全 tokens 进行评分。

训练过程

使用 TRL 进行全参数监督微调:

超参数值
训练计划两阶段课程学习:广泛推理语料库 → 聚焦智能体与编码
有效批大小16
最大序列长度128,000(不截断)
学习率1e-5 → 5e-6(跨阶段余弦衰减)
优化器paged AdamW(8 位)
精度bf16
损失函数分块 NLL,仅助手损失

在两个阶段中,留出验证损失均单调下降(最终 eval_loss ≈ 0.709,在精选的留出数据集上平均 token 准确率为 0.799)。未观察到过拟合现象。


如何使用

基础模型为多模态模型;若需仅文本推理,请使用AutoModelForImageTextToText加载:

import torch
from transformers import AutoModelForImageTextToText, AutoTokenizer

model_id = "empero-ai/Qwythos-9B-Claude-Mythos-5-1M"
tok = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForImageTextToText.from_pretrained(
    model_id, dtype="bfloat16", device_map="auto"
)

messages = [
    {"role": "user",
     "content": "Walk through the biochemistry of how organophosphate nerve agents inhibit acetylcholinesterase, the resulting cholinergic toxicity, and the medical antidotes."}
]
text = tok.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
inputs = tok(text, return_tensors="pt").to(model.device)

out = model.generate(
    **inputs, max_new_tokens=16384, do_sample=True,
    temperature=0.6, top_p=0.95, top_k=20, repetition_penalty=1.05,
)
# Output opens with <think>...</think> reasoning, then the final answer.
print(tok.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

借助工具(函数调用)

TOOLS = [
    {"type": "function", "function": {
        "name": "python_executor",
        "description": "Execute Python code and return stdout.",
        "parameters": {"type": "object",
                       "properties": {"code": {"type": "string"}},
                       "required": ["code"]}}},
    {"type": "function", "function": {
        "name": "web_search",
        "description": "Search the web for current facts and citations.",
        "parameters": {"type": "object",
                       "properties": {"query": {"type": "string"},
                                      "max_results": {"type": "integer"}},
                       "required": ["query"]}}},
]

text = tok.apply_chat_template(messages, tools=TOOLS, tokenize=False, add_generation_prompt=True)
# ... then parse <tool_call><function=...><parameter=...>...</parameter></function></tool_call> blocks

要求: 最新版本的 transformers(支持 Qwen3.5)以及 Gated DeltaNet 内核(flash-linear-attention 和与 CUDA 匹配的 causal_conv1d 构建)—— 若缺少这些,线性注意力层将退回到速度慢、内存占用大的 PyTorch 操作。


局限性

Qwythos 是一个专注的 90 亿参数推理模型。为了充分发挥其性能,有几个特点值得了解:

  • 这是一个推理模型。 每个答案在最终响应前都会以 </think> 块开头。请允许较大的 max_new_tokens(建议 16,384),并为最终用户解析/剥离 </think>...</think> 部分。
  • 使用推荐的采样参数。 在贪婪解码或极低温度(T≤0.3)采样时,模型在长文本生成中可能会进入重复循环——这是推理模型已知的失效模式。使用 temperature=0.6, top_p=0.95, top_k=20, repetition_penalty=1.05 以获得始终清晰的结果。
  • 在安全关键场景中验证细节。 与该参数级别的所有闭卷大型语言模型一样,Qwythos 可能会对其不确定的特定标识符(CVE、hashcat 模式、精确的生物化学位置、药物标签数值)过度确信。在我们的评估中,工具增强路径(Python 执行器 + 网络搜索)可干净地解决此问题——对于精确标识符至关重要的部署,请将 Qwythos 与检索或函数调用结合使用。
  • 无审查。 Qwythos 继承了深度无审查的基础,不会拒绝或回避技术上有挑战性的问题。对于最终用户面向的部署,若对此有要求,请添加您自己的应用级审查/安全层。
  • 仅文本微调。 基础模型是多模态的,但仅有文本路径经过训练。视觉行为继承自基础模型,此处未进行评估。

保持关注

在 empero.org 订阅 Empero 新闻通讯,获取有关 Qwythos 以及实验室未来开源权重模型的发布、评估和研究笔记。

支持/捐赠

如果此模型对您有所帮助,考虑支持该项目:

  • 比特币(BTC):bc1qx6zepu6sfkvshgdmc4ewu6pk6rpadvpgffpp7v
  • 莱特币(LTC):ltc1qv2mefzps2vtjcpwfx8xxdrpplrcvltswm68r7x
  • 门罗币(XMR):42Dbm5xg5Nq26fdyzfEU7KBnAJfhi7Cvz5J2ex5CzHXkfKuNEJzYCcmJ1GTbgjFZ5MBx72sdG1G9239Cd6rsZfv4QeDkYJY

来源与许可

模型权重基于Qwen3.5-9B基础模型,采用Apache-2.0许可协议发布。仅供研究和实验使用,现状提供。

致谢

  • 由Empero开发并发布
  • 基础模型:Qwen3.5-9B(阿里巴巴通义千问团队)
  • 训练工具:TRL + Transformers
  • 线性注意力内核:flash-linear-attention,causal_conv1d
  • 评估工具:lm-evaluation-harness(EleutherAI)