HuggingFace镜像/gemma-4-12B-coder-fable5-composer2.5-v1-GGUF
模型介绍文件和版本分析
下载使用量0

💻 Gemma4-12B-Coder (GGUF) — Composer 2.5 × Fable 5 ✨

🐣 小体积,大智慧 — 一款面向 所有人 的本地 编码 模型

无论您使用何种 GPU,无论您拥有多少 RAM。 只要您有 约 4.5 GB 的空闲 VRAM 或 统一内存, 您现在就可以运行自己的私人、离线编码助手。🚀 这是 v1 / 代码版 — 从 真实思维链 提炼而来,因此它会在编写解决方案之前 仔细思考 问题。🧠💻 完全本地运行,完全属于您,无需 API,无需云服务。

🎯 模型简介

这是在 可验证 Python 编码 数据上对 Gemma 4 12B 进行的专注微调 — 每个训练示例的推理都能生成 真正通过测试 的代码。其结果会公开推理过程(边缘情况、复杂度、方法),然后输出简洁、可运行的解决方案。💚


📚 训练数据(有趣的部分 🍳)

这是对两个互补思维链来源的 提炼,均基于可验证的 Python 编码任务(附带确定性测试的算法/函数级问题):

  • 🥇 主要数据集 — Composer 2.5 真实 思维链。 真实的、模型生成的推理轨迹。教师模型解决了每个问题, 其代码 已针对任务测试运行,只有通过的解决方案才被保留。因此,您学习的推理过程能生成 真正有效的 代码。
  • 🥈 辅助数据集 — Fable 5(今日发布!🎉)。 一个巧妙的补充:我们选取了 Composer 2.5 出错 的问题, 交给 Fable 5 重新处理 — 重新生成全新的、自洽的思维链和正确的解决方案,同样 通过测试才被纳入。这弥补了主要教师模型遗漏的难题。这些轨迹是 合成的(合理化思维链),并单独标记,以便区分两个来源。

训练方案:以真实思维链为主体确保广泛覆盖,辅以合成的“二次尝试”思维链来修补失败案例 — 所有内容在进入训练前均经过执行验证。✅


🗺️ 路线图 — v2(如果大家感兴趣的话!💚)

当前版本为 v1。如果点赞和下载量达到预期,我将发布 v2 版本,全力冲击基准测试 🏁。

📢 v2 更新及 Fable 5 相关情况 (2026-06-14)

给所有等待 v2 版本的用户一个快速更新:

Fable 5 的访问权限已被收回。 我之前设法保存的 Fable 5 CoT 数据量其实相当小,不足以单独作为 v2 版本的主要训练信号,否则会有 过拟合 的风险。因此,计划调整如下:

  • v2 将更倚重 Composer 2.5 可验证 CoT 作为核心(主要的、经过执行验证的来源),并谨慎地将有限的 Fable 5 数据作为补充,而非核心。
  • 如果 Fable 5 访问权限在大约一周内未能恢复,我正考虑引入 GLM-5.2 作为额外的指导模型。我刚刚查看了基准测试结果:根据 BridgeMind 在 X 上发布的评估,GLM-5.2 在 BS 和 推理能力 排行榜上实际上均略优于 Fable 5。我尚未亲自进行实践测试——凭直觉,它在实际应用中的表现可能会 略低于 Fable 5,但很可能 非常接近。

总之:v2 仍在开发中。我宁愿多花一点时间,发布一个能够 良好泛化 的模型,也不愿仓促推出一个过拟合的版本。感谢大家的耐心与支持 💚

⭐ 如果希望看到 v2 版本,请点赞并下载 —— 这是我关注的信号!


📦 选择适合您的大小(GGUF 量化版本)

量化版本大小特点
🟢 Q2_K4.5 GB最小巧 — 几乎可在任何设备上运行
🔵 Q4_K_M6.87 GB黄金平衡点 👌(推荐)
🟣 Q6_K9.11 GB接近无损
⚪ Q8_011.8 GB基本为完整质量

🧮 “它能容纳多少上下文?”—— 上下文长度速查表

大致估算 🤓(假设使用 q8_0 KV 缓存 + 约 1.5 GB 系统开销;使用 q4_0 KV 缓存可获得约 2 倍上下文长度!)。最大上下文长度为 131K。“—” 表示无法容纳,请选择更小的量化版本。✂️

您的显存 / 统一内存🟢 Q2_K (4.5G)🔵 Q4_K_M (6.87G)🟣 Q6_K (9.11G)⚪ Q8_0 (11.8G)
8 GB~16K 上下文紧张 (~2–4K)——
12 GB~48K~30K~12K—
16 GB~80K~64K~44K~22K
24 GB131K(最大值)🎉~128K~110K~88K
32 GB131K131K131K131K

💡 Apple Silicon / 集成 GPU 的 统一内存 也适用此表,数值相同,只是速度比独立显卡慢。 💡 空间不足?选择更低的量化版本或将 KV 缓存切换为 q4_0,您的上下文长度大约会翻倍。


🚀 如何运行(超级简单)

选项 A — llama.cpp(推荐)🦙

  1. 获取上述量化文件(例如 …-Q4_K_M.gguf)和来自 llama.cpp 的 llama-server。

    ⚠️ 需要最新版本的 llama.cpp(这是 gemma4_unified 架构 — 旧版本无法加载)。

  2. 运行服务器(显示的是 Windows .bat 文件 — 可根据需要调整 --port、--ctx-size):
@echo off
cd /d C:\llama.cpp
llama-server.exe ^
  -m C:\models\gemma4-coding-Q4_K_M.gguf ^
  --ctx-size 16384 ^
  --n-gpu-layers 99 ^
  --no-mmap ^
  -fa on ^
  --cache-type-k q8_0 --cache-type-v q8_0 ^
  --temp 1.0 --top-p 0.95 --top-k 64 ^
  --host 0.0.0.0 --port 18080
pause
  1. 打开 http://localhost:18080 即可开始聊天。🎉(提示:可根据表格调整 --ctx-size;使用 q4_0 KV 可获得更多内容。)

选项 B — 一键应用 🖱️

适用于 LM Studio、Jan、Ollama 等 — 只需导入 GGUF,选择量化版本,即可使用。🐾

🧠 思考模式

该模型在回答前会通过 Gemma 的原生思考通道进行思考 — 完全符合其训练方式。请保持 enable_thinking=true(默认聊天模板已支持)。推荐采样参数:temp 1.0, top_p 0.95, top_k 64。 对于编码任务,也可使用贪婪模式(temp 0)以获得更具确定性的解决方案。


⚠️ 注意事项

  • 减少拒绝回答: 训练数据专注于任务,未包含安全规避内容,因此相比基础模型,本模型拒绝回答的情况更少。它未进行安全对齐 — 生产环境中请自行添加防护措施。请负责任地使用。🙏
  • 专为 Python / 算法 编码设计。在该领域推理质量最强;常识性事实/数字仍需仔细核对。
  • 以英语为中心。

📚 基础模型与许可

  • 基础模型: google/gemma-4-12B-it。遵循 Gemma 使用条款(衍生作品必须遵守)。
  • 个人/业余项目 — 按原样分享,不提供任何担保。祝您使用愉快,编程顺利!🐾✨