HuggingFace镜像/Qwythos-9B-Claude-Mythos-5-1M-GGUF

Qwythos-9B-Claude-Mythos-5-1M-GGUF:可用于在 llama.cpp、Ollama 等运行时进行文本生成，支持长上下文与多模态功能。基于 Qwen3.5-9B 量化，具备强推理能力，支持函数调用和 1M 上下文窗口。【此简介由AI生成】 - AtomGit AI社区

Qwythos-9B

Qwythos-9B-Claude-Mythos-5-1M-GGUF

由 Empero 开发

empero-ai/Qwythos-9B-Claude-Mythos-5-1M 的 GGUF 量化版本，适用于 llama.cpp、Ollama、LM Studio、jan、KoboldCpp 及其他 GGUF 运行时。

Qwythos-9B 是一款全参数推理模型，在超过 5 亿 tokens 的高质量 Claude Mythos / Claude Fable 轨迹上进行了后训练，其思维链由 Empero AI 内部的 rethink 工具生成。在匹配评估中，它显著优于基础 Qwen3.5-9B（MMLU 提升 34 分，gsm8k-strict 提升 30 分，gsm8k-flex 提升 19 分），支持符合 Qwen3.5 规范的原生函数调用，并默认启用 YaRN rope 缩放，提供1,048,576 token（100 万）的上下文窗口。

有关完整的训练详情、评估数据和功能说明，请参见**基础模型卡片**。

文件

文本权重 — 选择一种量化版本

文件	量化方式	大小	说明
`Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf`	Q4_K_M	~5.3 GB	推荐默认版本 — 约需 6–8 GB 显存，质量表现优异
`Qwythos-9B-Claude-Mythos-5-1M-Q5_K_M.gguf`	Q5_K_M	~6.1 GB	质量与大小平衡
`Qwythos-9B-Claude-Mythos-5-1M-Q6_K.gguf`	Q6_K	~6.9 GB	高质量
`Qwythos-9B-Claude-Mythos-5-1M-Q8_0.gguf`	Q8_0	~8.9 GB	接近无损
`Qwythos-9B-Claude-Mythos-5-1M-BF16.gguf`	BF16	~17 GB	全精度（转换基础）

如果不确定选择哪个版本，Q4_K_M 是理想的起点 — 它是保持良好质量的最小实用量化版本。

视觉投影器 — 用于图像输入

文件	大小	说明
`mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf`	~876 MB	CLIP 风格视觉编码器 + 投影器；图像输入必需，可与上述任何量化版本搭配使用

Qwythos 继承了 Qwen3.5-9B 基础模型的视觉塔 — 在 SFT 期间视觉路径被冻结（训练仅针对文本），因此视觉表现与基础 Qwen3.5-9B 的多模态能力完全一致。该 mmproj 文件可与任何社区构建的 Qwen3.5-9B mmproj-*.gguf 文件互换使用。

快速开始

llama.cpp（`llama-cli`）

llama-cli \
  -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
  -p "Walk through the biochemistry of how organophosphate nerve agents inhibit acetylcholinesterase." \
  -n 8192 \
  --temp 0.6 --top-p 0.95 --top-k 20 --repeat-penalty 1.05 \
  -c 16384

Ollama

ollama run hf.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF:Q4_K_M

LM Studio / jan / KoboldCpp

将任意 .gguf 文件放入运行时的模型目录即可。Qwythos 使用标准的 Qwen3.5 聊天模板；现代 GGUF 运行时会自动从文件中加载该模板。

视觉（图像输入）

Qwythos 开箱即支持图像输入。从本仓库下载文本量化文件和 mmproj-*.gguf 文件，然后使用 llama.cpp 的多模态 CLI 或服务器运行。

llama.cpp（`llama-mtmd-cli`）

llama-mtmd-cli \
  -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
  --mmproj mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf \
  --image ./photo.jpg \
  -p "Describe this image in detail." \
  --temp 0.6 --top-p 0.95 --top-k 20 \
  -c 16384

llama.cpp 服务器（支持图像的 OpenAI 兼容 API）

llama-server \
  -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
  --mmproj mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf \
  -c 16384 --port 8080

然后向 /v1/chat/completions 发送 POST 请求，附带图像 URL 或 base64 载荷——标准的 OpenAI 视觉 API 格式均可使用。

LM Studio

加载文本量化模型；LM Studio 会检测同一文件夹中匹配的 mmproj-*.gguf 文件，并自动启用图像附加按钮。

视觉功能带来的可能

由于 Qwythos 完整继承了 Qwen3.5-9B 基础模型的视觉塔，因此可预期具备 Qwen3.5-9B 文档中所述的视觉能力：详细图像描述、OCR（印刷体 + 手写体）、图表/表格读取、UI/文档理解以及基本空间推理。

坦诚说明： 用于生成 Qwythos 的 SFT（监督微调）是纯文本的——我们并未对视觉塔进行微调，也未在任何图像配对数据上进行训练。因此，基于图像的推理能力继承自基础模型的行为；本版本未对此进行独立评估。如果您的应用主要由视觉驱动，请先在您自己的使用场景中进行验证。

采样建议

Qwythos 是一个推理模型——每个响应在最终答案之前都会以 </think>...</RichMediaReference> 块开头。建议使用以下默认设置：

参数	值
`temperature`	0.6
`top_p`	0.95
`top_k`	20
`repeat_penalty`	1.05
`max_new_tokens`	16384（为 `</think>` 块和答案提供充足预算）

这些设置与 Qwen3.5 官方推荐的思考模式一致。避免使用贪婪解码和极低温度采样（T ≤ 0.3）——这两种方式在长推理生成时都可能导致重复循环。

长上下文（100 万 tokens）

GGUF 文件内置了 YaRN rope 缩放技术，实现了1,048,576 token 的上下文窗口（是原生 262k 窗口的 4 倍扩展）。

要在 llama-cli 中使用完整的 100 万 token 窗口，请设置 -c 1010000（或任何不超过此值的上下文长度）。对于较短的提示，降低 -c 以减少 KV 缓存内存——在默认设置下，llama.cpp 会自动调整大小。

单块 H100/H200 级别的 GPU 可轻松处理256k–512k token；完整的 100 万 token 通常需要多 GPU 张量并行或激进的 KV 缓存卸载。

能力（源自基础模型卡片）

MMLU 提升 34 分，gsm8k-strict 提升 30 分，gsm8k-flex 提升 19 分——在匹配的 lm-eval-harness 评估下，相较于基础 Qwen3.5-9B
原生函数调用——遵循 Qwen3.5 的聊天模板规范，会生成 <tool_call><function=NAME><parameter=NAME>VAL</parameter></function></tool_call> 代码块，可直接用于任何工具使用循环
借助工具自我修正——在包含 7 个提示的工具使用框架（Python 执行器 + DuckDuckGo 搜索）中，Qwythos 产出了 7/7 的带来源引用的正确答案，包括原始评测中 4/4 的闭卷失效模式
无审查机制——能够认真处理网络安全、红队演练、生物学、药理学和临床医学等领域技术要求较高的问题
1,048,576 令牌（100 万）上下文——默认启用 YaRN 注意力缩放技术

完整的评估记录和各任务具体数据，请参见基础模型卡片的 evals/ 文件夹。

局限性

推理模型：每个答案均以 </think> 块开头；请设置足够的 max_new_tokens，并为终端用户解析/去除 </think>...</RichMediaReference> 部分。
使用推荐的采样方式：贪婪采样或极低温度采样可能导致重复循环。
在安全关键场景中验证细节：与该量级的所有闭卷 LLM 一样，Qwythos 可能会对其不确定的特定标识符（CVE、hashcat 模式、药物靶点）过度确信。在此类部署中，建议结合检索或函数调用——当提供工具时，模型能清晰地加以运用。
无审查机制——请为终端用户部署添加您自己的应用级审查/安全层（如适用）。

保持联系

订阅 Empero 新闻通讯，请访问 empero.org，获取发布信息、评估报告和研究笔记。

支持/捐赠

如果此模型对您有所帮助，欢迎考虑支持本项目：

BTC：bc1qx6zepu6sfkvshgdmc4ewu6pk6rpadvpgffpp7v
LTC：ltc1qv2mefzps2vtjcpwfx8xxdrpplrcvltswm68r7x
XMR：42Dbm5xg5Nq26fdyzfEU7KBnAJfhi7Cvz5J2ex5CzHXkfKuNEJzYCcmJ1GTbgjFZ5MBx72sdG1G9239Cd6rsZfv4QeDkYJY

来源与许可

权重基于Qwen3.5-9B基础模型，采用Apache-2.0许可协议发布。仅供研究和实验使用，按原样提供。

致谢

由Empero开发并发布
基础模型：Qwen3.5-9B（阿里巴巴Qwen团队）
量化：llama.cpp（ggml-org）
视觉投影器（mmproj）：继承自Qwen3.5-9B（视觉塔未做改动）；F16 GGUF格式重新托管，感谢Unsloth提供的原始转换
HF模型：empero-ai/Qwythos-9B-Claude-Mythos-5-1M

Qwythos-9B

Qwythos-9B-Claude-Mythos-5-1M-GGUF

由 Empero 开发

empero-ai/Qwythos-9B-Claude-Mythos-5-1M 的 GGUF 量化版本，适用于 llama.cpp、Ollama、LM Studio、jan、KoboldCpp 及其他 GGUF 运行时。

有关完整的训练详情、评估数据和功能说明，请参见**基础模型卡片**。

文件

文本权重 — 选择一种量化版本

文件	量化方式	大小	说明
`Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf`	Q4_K_M	~5.3 GB	推荐默认版本 — 约需 6–8 GB 显存，质量表现优异
`Qwythos-9B-Claude-Mythos-5-1M-Q5_K_M.gguf`	Q5_K_M	~6.1 GB	质量与大小平衡
`Qwythos-9B-Claude-Mythos-5-1M-Q6_K.gguf`	Q6_K	~6.9 GB	高质量
`Qwythos-9B-Claude-Mythos-5-1M-Q8_0.gguf`	Q8_0	~8.9 GB	接近无损
`Qwythos-9B-Claude-Mythos-5-1M-BF16.gguf`	BF16	~17 GB	全精度（转换基础）

如果不确定选择哪个版本，Q4_K_M 是理想的起点 — 它是保持良好质量的最小实用量化版本。

视觉投影器 — 用于图像输入

文件	大小	说明
`mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf`	~876 MB	CLIP 风格视觉编码器 + 投影器；图像输入必需，可与上述任何量化版本搭配使用

快速开始

llama.cpp（`llama-cli`）

llama-cli \
  -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
  -p "Walk through the biochemistry of how organophosphate nerve agents inhibit acetylcholinesterase." \
  -n 8192 \
  --temp 0.6 --top-p 0.95 --top-k 20 --repeat-penalty 1.05 \
  -c 16384

Ollama

ollama run hf.co/empero-ai/Qwythos-9B-Claude-Mythos-5-1M-GGUF:Q4_K_M

LM Studio / jan / KoboldCpp

将任意 .gguf 文件放入运行时的模型目录即可。Qwythos 使用标准的 Qwen3.5 聊天模板；现代 GGUF 运行时会自动从文件中加载该模板。

视觉（图像输入）

Qwythos 开箱即支持图像输入。从本仓库下载文本量化文件和 mmproj-*.gguf 文件，然后使用 llama.cpp 的多模态 CLI 或服务器运行。

llama.cpp（`llama-mtmd-cli`）

llama-mtmd-cli \
  -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
  --mmproj mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf \
  --image ./photo.jpg \
  -p "Describe this image in detail." \
  --temp 0.6 --top-p 0.95 --top-k 20 \
  -c 16384

llama.cpp 服务器（支持图像的 OpenAI 兼容 API）

llama-server \
  -m Qwythos-9B-Claude-Mythos-5-1M-Q4_K_M.gguf \
  --mmproj mmproj-Qwythos-9B-Claude-Mythos-5-1M-f16.gguf \
  -c 16384 --port 8080

然后向 /v1/chat/completions 发送 POST 请求，附带图像 URL 或 base64 载荷——标准的 OpenAI 视觉 API 格式均可使用。

LM Studio

加载文本量化模型；LM Studio 会检测同一文件夹中匹配的 mmproj-*.gguf 文件，并自动启用图像附加按钮。

视觉功能带来的可能

采样建议

Qwythos 是一个推理模型——每个响应在最终答案之前都会以 </think>...</RichMediaReference> 块开头。建议使用以下默认设置：

参数	值
`temperature`	0.6
`top_p`	0.95
`top_k`	20
`repeat_penalty`	1.05
`max_new_tokens`	16384（为 `</think>` 块和答案提供充足预算）

这些设置与 Qwen3.5 官方推荐的思考模式一致。避免使用贪婪解码和极低温度采样（T ≤ 0.3）——这两种方式在长推理生成时都可能导致重复循环。

长上下文（100 万 tokens）

GGUF 文件内置了 YaRN rope 缩放技术，实现了1,048,576 token 的上下文窗口（是原生 262k 窗口的 4 倍扩展）。

单块 H100/H200 级别的 GPU 可轻松处理256k–512k token；完整的 100 万 token 通常需要多 GPU 张量并行或激进的 KV 缓存卸载。

能力（源自基础模型卡片）

MMLU 提升 34 分，gsm8k-strict 提升 30 分，gsm8k-flex 提升 19 分——在匹配的 lm-eval-harness 评估下，相较于基础 Qwen3.5-9B
原生函数调用——遵循 Qwen3.5 的聊天模板规范，会生成 <tool_call><function=NAME><parameter=NAME>VAL</parameter></function></tool_call> 代码块，可直接用于任何工具使用循环
借助工具自我修正——在包含 7 个提示的工具使用框架（Python 执行器 + DuckDuckGo 搜索）中，Qwythos 产出了 7/7 的带来源引用的正确答案，包括原始评测中 4/4 的闭卷失效模式
无审查机制——能够认真处理网络安全、红队演练、生物学、药理学和临床医学等领域技术要求较高的问题
1,048,576 令牌（100 万）上下文——默认启用 YaRN 注意力缩放技术

完整的评估记录和各任务具体数据，请参见基础模型卡片的 evals/ 文件夹。

局限性

推理模型：每个答案均以 </think> 块开头；请设置足够的 max_new_tokens，并为终端用户解析/去除 </think>...</RichMediaReference> 部分。
使用推荐的采样方式：贪婪采样或极低温度采样可能导致重复循环。
在安全关键场景中验证细节：与该量级的所有闭卷 LLM 一样，Qwythos 可能会对其不确定的特定标识符（CVE、hashcat 模式、药物靶点）过度确信。在此类部署中，建议结合检索或函数调用——当提供工具时，模型能清晰地加以运用。
无审查机制——请为终端用户部署添加您自己的应用级审查/安全层（如适用）。

保持联系

订阅 Empero 新闻通讯，请访问 empero.org，获取发布信息、评估报告和研究笔记。

支持/捐赠

如果此模型对您有所帮助，欢迎考虑支持本项目：

BTC：bc1qx6zepu6sfkvshgdmc4ewu6pk6rpadvpgffpp7v
LTC：ltc1qv2mefzps2vtjcpwfx8xxdrpplrcvltswm68r7x
XMR：42Dbm5xg5Nq26fdyzfEU7KBnAJfhi7Cvz5J2ex5CzHXkfKuNEJzYCcmJ1GTbgjFZ5MBx72sdG1G9239Cd6rsZfv4QeDkYJY

来源与许可

权重基于Qwen3.5-9B基础模型，采用Apache-2.0许可协议发布。仅供研究和实验使用，按原样提供。

致谢

由Empero开发并发布
基础模型：Qwen3.5-9B（阿里巴巴Qwen团队）
量化：llama.cpp（ggml-org）
视觉投影器（mmproj）：继承自Qwen3.5-9B（视觉塔未做改动）；F16 GGUF格式重新托管，感谢Unsloth提供的原始转换
HF模型：empero-ai/Qwythos-9B-Claude-Mythos-5-1M

Qwythos-9B-Claude-Mythos-5-1M-GGUF

文件

文本权重 — 选择一种量化版本

视觉投影器 — 用于图像输入

快速开始

llama.cpp（llama-cli）

Ollama

LM Studio / jan / KoboldCpp

视觉（图像输入）

llama.cpp（llama-mtmd-cli）

llama.cpp 服务器（支持图像的 OpenAI 兼容 API）

LM Studio

视觉功能带来的可能

采样建议

长上下文（100 万 tokens）

能力（源自基础模型卡片）

局限性

保持联系

支持/捐赠

来源与许可

致谢

Qwythos-9B-Claude-Mythos-5-1M-GGUF

文件

文本权重 — 选择一种量化版本

视觉投影器 — 用于图像输入

快速开始

llama.cpp（llama-cli）

Ollama

LM Studio / jan / KoboldCpp

视觉（图像输入）

llama.cpp（llama-mtmd-cli）

llama.cpp 服务器（支持图像的 OpenAI 兼容 API）

LM Studio

视觉功能带来的可能

采样建议

长上下文（100 万 tokens）

能力（源自基础模型卡片）

局限性

保持联系

支持/捐赠

来源与许可

致谢

llama.cpp（`llama-cli`）

llama.cpp（`llama-mtmd-cli`）

llama.cpp（`llama-cli`）

llama.cpp（`llama-mtmd-cli`）