💻 Gemma4-12B-Coder (GGUF) — Composer 2.5 × Fable 5 ✨

🐣 小体积，大智慧 — 一款面向所有人的本地编码模型

无论您使用何种 GPU，无论您拥有多少 RAM。 只要您有 约 4.5 GB 的空闲 VRAM 或统一内存，您现在就可以运行自己的私人、离线编码助手。🚀 这是 v1 / 代码版 — 从 真实思维链 提炼而来，因此它会在编写解决方案之前 仔细思考 问题。🧠💻 完全本地运行，完全属于您，无需 API，无需云服务。

🎯 模型简介

这是在 可验证 Python 编码 数据上对 Gemma 4 12B 进行的专注微调 — 每个训练示例的推理都能生成 真正通过测试 的代码。其结果会公开推理过程（边缘情况、复杂度、方法），然后输出简洁、可运行的解决方案。💚

📚 训练数据（有趣的部分 🍳）

这是对两个互补思维链来源的提炼，均基于可验证的 Python 编码任务（附带确定性测试的算法/函数级问题）：

🥇 主要数据集 — Composer 2.5 真实思维链。 真实的、模型生成的推理轨迹。教师模型解决了每个问题，其代码 已针对任务测试运行，只有通过的解决方案才被保留。因此，您学习的推理过程能生成 真正有效的 代码。
🥈 辅助数据集 — Fable 5（今日发布！🎉）。 一个巧妙的补充：我们选取了 Composer 2.5 出错 的问题，交给 Fable 5 重新处理 — 重新生成全新的、自洽的思维链和正确的解决方案，同样 通过测试才被纳入。这弥补了主要教师模型遗漏的难题。这些轨迹是 合成的（合理化思维链），并单独标记，以便区分两个来源。

训练方案：以真实思维链为主体确保广泛覆盖，辅以合成的“二次尝试”思维链来修补失败案例 — 所有内容在进入训练前均经过执行验证。✅

🗺️ 路线图 — v2（如果大家感兴趣的话！💚）

当前版本为 v1。如果点赞和下载量达到预期，我将发布 v2 版本，全力冲击基准测试 🏁。

📢 v2 更新及 Fable 5 相关情况 (2026-06-14)

给所有等待 v2 版本的用户一个快速更新：

Fable 5 的访问权限已被收回。 我之前设法保存的 Fable 5 CoT 数据量其实相当小，不足以单独作为 v2 版本的主要训练信号，否则会有 过拟合 的风险。因此，计划调整如下：

v2 将更倚重 Composer 2.5 可验证 CoT 作为核心（主要的、经过执行验证的来源），并谨慎地将有限的 Fable 5 数据作为补充，而非核心。
如果 Fable 5 访问权限在大约一周内未能恢复，我正考虑引入 GLM-5.2 作为额外的指导模型。我刚刚查看了基准测试结果：根据 BridgeMind 在 X 上发布的评估，GLM-5.2 在 BS 和 推理能力 排行榜上实际上均略优于 Fable 5。我尚未亲自进行实践测试——凭直觉，它在实际应用中的表现可能会 略低于 Fable 5，但很可能 非常接近。

总之：v2 仍在开发中。我宁愿多花一点时间，发布一个能够 良好泛化 的模型，也不愿仓促推出一个过拟合的版本。感谢大家的耐心与支持 💚

⭐ 如果希望看到 v2 版本，请点赞并下载 —— 这是我关注的信号！

📦 选择适合您的大小（GGUF 量化版本）

量化版本	大小	特点
🟢 Q2_K	4.5 GB	最小巧 — 几乎可在任何设备上运行
🔵 Q4_K_M	6.87 GB	黄金平衡点 👌（推荐）
🟣 Q6_K	9.11 GB	接近无损
⚪ Q8_0	11.8 GB	基本为完整质量

🧮 “它能容纳多少上下文？”—— 上下文长度速查表

大致估算 🤓（假设使用 q8_0 KV 缓存 + 约 1.5 GB 系统开销；使用 q4_0 KV 缓存可获得约 2 倍上下文长度！）。最大上下文长度为 131K。“—” 表示无法容纳，请选择更小的量化版本。✂️

您的显存 / 统一内存	🟢 Q2_K (4.5G)	🔵 Q4_K_M (6.87G)	🟣 Q6_K (9.11G)	⚪ Q8_0 (11.8G)
8 GB	~16K 上下文	紧张 (~2–4K)	—	—
12 GB	~48K	~30K	~12K	—
16 GB	~80K	~64K	~44K	~22K
24 GB	131K（最大值）🎉	~128K	~110K	~88K
32 GB	131K	131K	131K	131K

💡 Apple Silicon / 集成 GPU 的 统一内存 也适用此表，数值相同，只是速度比独立显卡慢。 💡 空间不足？选择更低的量化版本或将 KV 缓存切换为 q4_0，您的上下文长度大约会翻倍。

🚀 如何运行（超级简单）

选项 A — llama.cpp（推荐）🦙

获取上述量化文件（例如 …-Q4_K_M.gguf）和来自 llama.cpp 的 llama-server。

⚠️ 需要最新版本的 llama.cpp（这是 gemma4_unified 架构 — 旧版本无法加载）。
运行服务器（显示的是 Windows .bat 文件 — 可根据需要调整 --port、--ctx-size）：

@echo off
cd /d C:\llama.cpp
llama-server.exe ^
  -m C:\models\gemma4-coding-Q4_K_M.gguf ^
  --ctx-size 16384 ^
  --n-gpu-layers 99 ^
  --no-mmap ^
  -fa on ^
  --cache-type-k q8_0 --cache-type-v q8_0 ^
  --temp 1.0 --top-p 0.95 --top-k 64 ^
  --host 0.0.0.0 --port 18080
pause

打开 http://localhost:18080 即可开始聊天。🎉（提示：可根据表格调整 --ctx-size；使用 q4_0 KV 可获得更多内容。）

选项 B — 一键应用 🖱️

适用于 LM Studio、Jan、Ollama 等 — 只需导入 GGUF，选择量化版本，即可使用。🐾

🧠 思考模式

该模型在回答前会通过 Gemma 的原生思考通道进行思考 — 完全符合其训练方式。请保持 enable_thinking=true（默认聊天模板已支持）。推荐采样参数：temp 1.0, top_p 0.95, top_k 64。对于编码任务，也可使用贪婪模式（temp 0）以获得更具确定性的解决方案。

⚠️ 注意事项

减少拒绝回答： 训练数据专注于任务，未包含安全规避内容，因此相比基础模型，本模型拒绝回答的情况更少。它未进行安全对齐 — 生产环境中请自行添加防护措施。请负责任地使用。🙏
专为 Python / 算法 编码设计。在该领域推理质量最强；常识性事实/数字仍需仔细核对。
以英语为中心。

📚 基础模型与许可

基础模型： google/gemma-4-12B-it。遵循 Gemma 使用条款（衍生作品必须遵守）。
个人/业余项目 — 按原样分享，不提供任何担保。祝您使用愉快，编程顺利！🐾✨

💻 Gemma4-12B-Coder (GGUF) — Composer 2.5 × Fable 5 ✨

🐣 小体积，大智慧 — 一款面向所有人的本地编码模型

无论您使用何种 GPU，无论您拥有多少 RAM。 只要您有 约 4.5 GB 的空闲 VRAM 或统一内存，您现在就可以运行自己的私人、离线编码助手。🚀 这是 v1 / 代码版 — 从 真实思维链 提炼而来，因此它会在编写解决方案之前 仔细思考 问题。🧠💻 完全本地运行，完全属于您，无需 API，无需云服务。

🎯 模型简介

📚 训练数据（有趣的部分 🍳）

这是对两个互补思维链来源的提炼，均基于可验证的 Python 编码任务（附带确定性测试的算法/函数级问题）：

🥇 主要数据集 — Composer 2.5 真实思维链。 真实的、模型生成的推理轨迹。教师模型解决了每个问题，其代码 已针对任务测试运行，只有通过的解决方案才被保留。因此，您学习的推理过程能生成 真正有效的 代码。
🥈 辅助数据集 — Fable 5（今日发布！🎉）。 一个巧妙的补充：我们选取了 Composer 2.5 出错 的问题，交给 Fable 5 重新处理 — 重新生成全新的、自洽的思维链和正确的解决方案，同样 通过测试才被纳入。这弥补了主要教师模型遗漏的难题。这些轨迹是 合成的（合理化思维链），并单独标记，以便区分两个来源。

训练方案：以真实思维链为主体确保广泛覆盖，辅以合成的“二次尝试”思维链来修补失败案例 — 所有内容在进入训练前均经过执行验证。✅

🗺️ 路线图 — v2（如果大家感兴趣的话！💚）

当前版本为 v1。如果点赞和下载量达到预期，我将发布 v2 版本，全力冲击基准测试 🏁。

📢 v2 更新及 Fable 5 相关情况 (2026-06-14)

给所有等待 v2 版本的用户一个快速更新：

v2 将更倚重 Composer 2.5 可验证 CoT 作为核心（主要的、经过执行验证的来源），并谨慎地将有限的 Fable 5 数据作为补充，而非核心。
如果 Fable 5 访问权限在大约一周内未能恢复，我正考虑引入 GLM-5.2 作为额外的指导模型。我刚刚查看了基准测试结果：根据 BridgeMind 在 X 上发布的评估，GLM-5.2 在 BS 和 推理能力 排行榜上实际上均略优于 Fable 5。我尚未亲自进行实践测试——凭直觉，它在实际应用中的表现可能会 略低于 Fable 5，但很可能 非常接近。

总之：v2 仍在开发中。我宁愿多花一点时间，发布一个能够 良好泛化 的模型，也不愿仓促推出一个过拟合的版本。感谢大家的耐心与支持 💚

⭐ 如果希望看到 v2 版本，请点赞并下载 —— 这是我关注的信号！

📦 选择适合您的大小（GGUF 量化版本）

量化版本	大小	特点
🟢 Q2_K	4.5 GB	最小巧 — 几乎可在任何设备上运行
🔵 Q4_K_M	6.87 GB	黄金平衡点 👌（推荐）
🟣 Q6_K	9.11 GB	接近无损
⚪ Q8_0	11.8 GB	基本为完整质量

🧮 “它能容纳多少上下文？”—— 上下文长度速查表

您的显存 / 统一内存	🟢 Q2_K (4.5G)	🔵 Q4_K_M (6.87G)	🟣 Q6_K (9.11G)	⚪ Q8_0 (11.8G)
8 GB	~16K 上下文	紧张 (~2–4K)	—	—
12 GB	~48K	~30K	~12K	—
16 GB	~80K	~64K	~44K	~22K
24 GB	131K（最大值）🎉	~128K	~110K	~88K
32 GB	131K	131K	131K	131K

💡 Apple Silicon / 集成 GPU 的 统一内存 也适用此表，数值相同，只是速度比独立显卡慢。 💡 空间不足？选择更低的量化版本或将 KV 缓存切换为 q4_0，您的上下文长度大约会翻倍。

🚀 如何运行（超级简单）

选项 A — llama.cpp（推荐）🦙

获取上述量化文件（例如 …-Q4_K_M.gguf）和来自 llama.cpp 的 llama-server。

⚠️ 需要最新版本的 llama.cpp（这是 gemma4_unified 架构 — 旧版本无法加载）。
运行服务器（显示的是 Windows .bat 文件 — 可根据需要调整 --port、--ctx-size）：

@echo off
cd /d C:\llama.cpp
llama-server.exe ^
  -m C:\models\gemma4-coding-Q4_K_M.gguf ^
  --ctx-size 16384 ^
  --n-gpu-layers 99 ^
  --no-mmap ^
  -fa on ^
  --cache-type-k q8_0 --cache-type-v q8_0 ^
  --temp 1.0 --top-p 0.95 --top-k 64 ^
  --host 0.0.0.0 --port 18080
pause

打开 http://localhost:18080 即可开始聊天。🎉（提示：可根据表格调整 --ctx-size；使用 q4_0 KV 可获得更多内容。）

选项 B — 一键应用 🖱️

适用于 LM Studio、Jan、Ollama 等 — 只需导入 GGUF，选择量化版本，即可使用。🐾

🧠 思考模式

⚠️ 注意事项

减少拒绝回答： 训练数据专注于任务，未包含安全规避内容，因此相比基础模型，本模型拒绝回答的情况更少。它未进行安全对齐 — 生产环境中请自行添加防护措施。请负责任地使用。🙏
专为 Python / 算法 编码设计。在该领域推理质量最强；常识性事实/数字仍需仔细核对。
以英语为中心。

📚 基础模型与许可

基础模型： google/gemma-4-12B-it。遵循 Gemma 使用条款（衍生作品必须遵守）。
个人/业余项目 — 按原样分享，不提供任何担保。祝您使用愉快，编程顺利！🐾✨

💻 Gemma4-12B-Coder (GGUF) — Composer 2.5 × Fable 5 ✨

🐣 小体积，大智慧 — 一款面向 所有人 的本地 编码 模型

🎯 模型简介

📚 训练数据（有趣的部分 🍳）

🗺️ 路线图 — v2（如果大家感兴趣的话！💚）

📢 v2 更新及 Fable 5 相关情况 (2026-06-14)

📦 选择适合您的大小（GGUF 量化版本）

🧮 “它能容纳多少上下文？”—— 上下文长度速查表

🚀 如何运行（超级简单）

选项 A — llama.cpp（推荐）🦙

选项 B — 一键应用 🖱️

🧠 思考模式

⚠️ 注意事项

📚 基础模型与许可

💻 Gemma4-12B-Coder (GGUF) — Composer 2.5 × Fable 5 ✨

🐣 小体积，大智慧 — 一款面向 所有人 的本地 编码 模型

🎯 模型简介

📚 训练数据（有趣的部分 🍳）

🗺️ 路线图 — v2（如果大家感兴趣的话！💚）

📢 v2 更新及 Fable 5 相关情况 (2026-06-14)

📦 选择适合您的大小（GGUF 量化版本）

🧮 “它能容纳多少上下文？”—— 上下文长度速查表

🚀 如何运行（超级简单）

选项 A — llama.cpp（推荐）🦙

选项 B — 一键应用 🖱️

🧠 思考模式

⚠️ 注意事项

📚 基础模型与许可

🐣 小体积，大智慧 — 一款面向所有人的本地编码模型

🐣 小体积，大智慧 — 一款面向所有人的本地编码模型