由 Empero 开发
empero-ai/Qwythos-9B-Claude-Mythos-5-1M 的 GGUF 量化版本,适用于 llama.cpp、Ollama、LM Studio、jan、KoboldCpp 及其他 GGUF 运行时。
Qwythos-9B 是一款全参数推理模型,在超过 5 亿 tokens 的高质量 Claude Mythos / Claude Fable 轨迹上进行了后训练,其思维链由 Empero AI 内部的 rethink 工具生成。在匹配评估中,它显著优于基础 Qwen3.5-9B(MMLU 提升 34 分,gsm8k-strict 提升 30 分,gsm8k-flex 提升 19 分),支持符合 Qwen3.5 规范的原生函数调用,并默认启用 YaRN rope 缩放,提供1,048,576 token(100 万)的上下文窗口。
有关完整的训练详情、评估数据和功能说明,请参见**基础模型卡片**。
| 文件 | 量化方式 | 大小 | 说明 |
|---|---|---|---|
Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf | Q4_K_M | ~5.3 GB | 推荐默认版本 — 约需 6–8 GB 显存,质量表现优异 |
Qwythos-9B-Claude-Mythos-5-1M-Q5_K_M.gguf | Q5_K_M | ~6.1 GB | 质量与大小平衡 |
Qwythos-9B-Claude-Mythos-5-1M-Q6_K.gguf | Q6_K | ~6.9 GB | 高质量 |
Qwythos-9B-Claude-Mythos-5-1M-Q8_0.gguf | Q8_0 | ~8.9 GB | 接近无损 |
Qwythos-9B-Claude-Mythos-5-1M-BF16.gguf | BF16 | ~17 GB | 全精度(转换基础) |
如果不确定选择哪个版本,Q4_K_M 是理想的起点 — 它是保持良好质量的最小实用量化版本。
| 文件 | 大小 | 说明 |
|---|---|---|
mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf | ~876 MB | CLIP 风格视觉编码器 + 投影器;图像输入必需,可与上述任何量化版本搭配使用 |
Qwythos 继承了 Qwen3.5-9B 基础模型的视觉塔 — 在 SFT 期间视觉路径被冻结(训练仅针对文本),因此视觉表现与基础 Qwen3.5-9B 的多模态能力完全一致。该 mmproj 文件可与任何社区构建的 Qwen3.5-9B mmproj-*.gguf 文件互换使用。
llama-cli)llama-cli \
-m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
-p "Walk through the biochemistry of how organophosphate nerve agents inhibit acetylcholinesterase." \
-n 8192 \
--temp 0.6 --top-p 0.95 --top-k 20 --repeat-penalty 1.05 \
-c 16384ollama run hf.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF:Q4_K_M将任意 .gguf 文件放入运行时的模型目录即可。Qwythos 使用标准的 Qwen3.5 聊天模板;现代 GGUF 运行时会自动从文件中加载该模板。
Qwythos 开箱即支持图像输入。从本仓库下载文本量化文件和 mmproj-*.gguf 文件,然后使用 llama.cpp 的多模态 CLI 或服务器运行。
llama-mtmd-cli)llama-mtmd-cli \
-m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
--mmproj mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf \
--image ./photo.jpg \
-p "Describe this image in detail." \
--temp 0.6 --top-p 0.95 --top-k 20 \
-c 16384llama-server \
-m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
--mmproj mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf \
-c 16384 --port 8080然后向 /v1/chat/completions 发送 POST 请求,附带图像 URL 或 base64 载荷——标准的 OpenAI 视觉 API 格式均可使用。
加载文本量化模型;LM Studio 会检测同一文件夹中匹配的 mmproj-*.gguf 文件,并自动启用图像附加按钮。
由于 Qwythos 完整继承了 Qwen3.5-9B 基础模型的视觉塔,因此可预期具备 Qwen3.5-9B 文档中所述的视觉能力:详细图像描述、OCR(印刷体 + 手写体)、图表/表格读取、UI/文档理解以及基本空间推理。
坦诚说明: 用于生成 Qwythos 的 SFT(监督微调)是纯文本的——我们并未对视觉塔进行微调,也未在任何图像配对数据上进行训练。因此,基于图像的推理能力继承自基础模型的行为;本版本未对此进行独立评估。如果您的应用主要由视觉驱动,请先在您自己的使用场景中进行验证。
Qwythos 是一个推理模型——每个响应在最终答案之前都会以 </think>...</RichMediaReference> 块开头。建议使用以下默认设置:
| 参数 | 值 |
|---|---|
temperature | 0.6 |
top_p | 0.95 |
top_k | 20 |
repeat_penalty | 1.05 |
max_new_tokens | 16384(为 </think> 块和答案提供充足预算) |
这些设置与 Qwen3.5 官方推荐的思考模式一致。避免使用贪婪解码和极低温度采样(T ≤ 0.3)——这两种方式在长推理生成时都可能导致重复循环。
GGUF 文件内置了 YaRN rope 缩放技术,实现了1,048,576 token 的上下文窗口(是原生 262k 窗口的 4 倍扩展)。
要在 llama-cli 中使用完整的 100 万 token 窗口,请设置 -c 1010000(或任何不超过此值的上下文长度)。对于较短的提示,降低 -c 以减少 KV 缓存内存——在默认设置下,llama.cpp 会自动调整大小。
单块 H100/H200 级别的 GPU 可轻松处理256k–512k token;完整的 100 万 token 通常需要多 GPU 张量并行或激进的 KV 缓存卸载。
<tool_call><function=NAME><parameter=NAME>VAL</parameter></function></tool_call> 代码块,可直接用于任何工具使用循环完整的评估记录和各任务具体数据,请参见基础模型卡片的 evals/ 文件夹。
</think> 块开头;请设置足够的 max_new_tokens,并为终端用户解析/去除 </think>...</RichMediaReference> 部分。订阅 Empero 新闻通讯,请访问 empero.org,获取发布信息、评估报告和研究笔记。
如果此模型对您有所帮助,欢迎考虑支持本项目:
bc1qx6zepu6sfkvshgdmc4ewu6pk6rpadvpgffpp7vltc1qv2mefzps2vtjcpwfx8xxdrpplrcvltswm68r7x42Dbm5xg5Nq26fdyzfEU7KBnAJfhi7Cvz5J2ex5CzHXkfKuNEJzYCcmJ1GTbgjFZ5MBx72sdG1G9239Cd6rsZfv4QeDkYJY权重基于Qwen3.5-9B基础模型,采用Apache-2.0许可协议发布。仅供研究和实验使用,按原样提供。
mmproj):继承自Qwen3.5-9B(视觉塔未做改动);F16 GGUF格式重新托管,感谢Unsloth提供的原始转换