无论您使用何种 GPU,无论您拥有多少 RAM。 只要您有 约 4.5 GB 的空闲 VRAM 或 统一内存, 您现在就可以运行自己的私人、离线编码助手。🚀 这是 v1 / 代码版 — 从 真实思维链 提炼而来,因此它会在编写解决方案之前 仔细思考 问题。🧠💻 完全本地运行,完全属于您,无需 API,无需云服务。
这是在 可验证 Python 编码 数据上对 Gemma 4 12B 进行的专注微调 — 每个训练示例的推理都能生成 真正通过测试 的代码。其结果会公开推理过程(边缘情况、复杂度、方法),然后输出简洁、可运行的解决方案。💚
这是对两个互补思维链来源的 提炼,均基于可验证的 Python 编码任务(附带确定性测试的算法/函数级问题):
训练方案:以真实思维链为主体确保广泛覆盖,辅以合成的“二次尝试”思维链来修补失败案例 — 所有内容在进入训练前均经过执行验证。✅
当前版本为 v1。如果点赞和下载量达到预期,我将发布 v2 版本,全力冲击基准测试 🏁。
给所有等待 v2 版本的用户一个快速更新:
Fable 5 的访问权限已被收回。 我之前设法保存的 Fable 5 CoT 数据量其实相当小,不足以单独作为 v2 版本的主要训练信号,否则会有 过拟合 的风险。因此,计划调整如下:
总之:v2 仍在开发中。我宁愿多花一点时间,发布一个能够 良好泛化 的模型,也不愿仓促推出一个过拟合的版本。感谢大家的耐心与支持 💚
⭐ 如果希望看到 v2 版本,请点赞并下载 —— 这是我关注的信号!
| 量化版本 | 大小 | 特点 |
|---|---|---|
| 🟢 Q2_K | 4.5 GB | 最小巧 — 几乎可在任何设备上运行 |
| 🔵 Q4_K_M | 6.87 GB | 黄金平衡点 👌(推荐) |
| 🟣 Q6_K | 9.11 GB | 接近无损 |
| ⚪ Q8_0 | 11.8 GB | 基本为完整质量 |
大致估算 🤓(假设使用 q8_0 KV 缓存 + 约 1.5 GB 系统开销;使用 q4_0 KV 缓存可获得约 2 倍上下文长度!)。最大上下文长度为 131K。“—” 表示无法容纳,请选择更小的量化版本。✂️
| 您的显存 / 统一内存 | 🟢 Q2_K (4.5G) | 🔵 Q4_K_M (6.87G) | 🟣 Q6_K (9.11G) | ⚪ Q8_0 (11.8G) |
|---|---|---|---|---|
| 8 GB | ~16K 上下文 | 紧张 (~2–4K) | — | — |
| 12 GB | ~48K | ~30K | ~12K | — |
| 16 GB | ~80K | ~64K | ~44K | ~22K |
| 24 GB | 131K(最大值)🎉 | ~128K | ~110K | ~88K |
| 32 GB | 131K | 131K | 131K | 131K |
💡 Apple Silicon / 集成 GPU 的 统一内存 也适用此表,数值相同,只是速度比独立显卡慢。 💡 空间不足?选择更低的量化版本或将 KV 缓存切换为
q4_0,您的上下文长度大约会翻倍。
…-Q4_K_M.gguf)和来自 llama.cpp 的 llama-server。
⚠️ 需要最新版本的 llama.cpp(这是
gemma4_unified架构 — 旧版本无法加载)。
.bat 文件 — 可根据需要调整 --port、--ctx-size):@echo off
cd /d C:\llama.cpp
llama-server.exe ^
-m C:\models\gemma4-coding-Q4_K_M.gguf ^
--ctx-size 16384 ^
--n-gpu-layers 99 ^
--no-mmap ^
-fa on ^
--cache-type-k q8_0 --cache-type-v q8_0 ^
--temp 1.0 --top-p 0.95 --top-k 64 ^
--host 0.0.0.0 --port 18080
pausehttp://localhost:18080 即可开始聊天。🎉(提示:可根据表格调整 --ctx-size;使用 q4_0 KV 可获得更多内容。)适用于 LM Studio、Jan、Ollama 等 — 只需导入 GGUF,选择量化版本,即可使用。🐾
该模型在回答前会通过 Gemma 的原生思考通道进行思考 — 完全符合其训练方式。请保持 enable_thinking=true(默认聊天模板已支持)。推荐采样参数:temp 1.0, top_p 0.95, top_k 64。
对于编码任务,也可使用贪婪模式(temp 0)以获得更具确定性的解决方案。
google/gemma-4-12B-it。遵循 Gemma 使用条款(衍生作品必须遵守)。