HuggingFace镜像/Bonsai-8B-gguf
模型介绍文件和版本分析
下载使用量0

Bonsai

Prism ML 官网  |  白皮书  |  演示与示例  |  Colab 笔记本  |  Discord

Bonsai-8B-GGUF-1bit

面向 llama.cpp 的端到端 1 位语言模型(支持 CUDA、Metal、CPU)

比 FP16 小 14.1 倍 | 在 RTX 4090 上快 6.2 倍 | 每 token 能耗降低 4-5 倍

亮点

  • 1.15 GB 参数内存(从 FP16 的 16.38 GB 缩减)—— 几乎可在任何配备 GPU 的设备上运行
  • 端到端 1 位权重,覆盖嵌入层、注意力投影层、MLP 投影层及语言模型头
  • GGUF Q1_0 (g128) 格式,内置反量化内核 — 无需 FP16 数据实例化
  • 跨平台支持:CUDA(RTX/数据中心)、Metal(Mac)、Android、CPU
  • 性能基准表现优异:6 个类别平均得分 70.5,在仅为全精度 8B 模型 1/14 大小的情况下与之性能相当
  • MLX 版本:同时提供 MLX 1-bit g128 版本,支持 Apple Silicon 原生推理

Frontier Efficiency

资源

  • Google Colab — 直接在浏览器中试用 Bonsai,无需任何设置
  • 白皮书 — 了解 Bonsai 更多详情,请查阅我们的白皮书
  • 演示仓库 — 包含服务部署、性能基准测试和集成 Bonsai 的综合示例
  • Discord — 加入社区获取支持、参与讨论并获取最新动态
  • 1 位内核:llama.cpp 分支(CUDA + Metal)· MLX 分支(Apple Silicon)· mlx-swift 分支(iOS/macOS)
  • Locally AI — 我们与 Locally AI 合作提供 iPhone 支持

模型概述

项目规格
参数数量8.19B(约6.95B非嵌入参数)
架构Qwen3-8B 密集型:GQA(32个查询头 / 8个键值头)、SwiGLU MLP、RoPE、RMSNorm
层数36个Transformer解码器块
上下文长度65,536个token
词汇表大小151,936
权重格式GGUF Q1_0
部署大小1.15 GB(比FP16小14.2倍)
1位覆盖范围嵌入层、注意力投影层、MLP投影层、语言模型头
许可证Apache 2.0

量化格式:Q1_0

每个权重为单个位:0 映射到 −scale,1 映射到 +scale。每128个权重共享一个FP16比例因子。

每权重有效位数:1.125(1个符号位 + 16位比例因子分摊到128个权重)。

内存需求

仅参数内存(加载到内存中的权重和比例因子):

格式大小缩减比例压缩比
FP1616.38 GB—1.0x
**GGUF Q1_0 **1.15 GB93.0%14.2x
MLX 1-bit g1281.28 GB92.2%12.8x

磁盘上的GGUF文件为1.16 GB(约大6.6 MB),因为该格式将分词器、对话模板和模型元数据与权重一起嵌入。

最佳实践

生成参数

参数默认值建议范围
Temperature(温度)0.50.5 -- 0.7
Top-k2020 -- 40
Top-p0.90.85 -- 0.95
Repetition penalty(重复惩罚)1.0
Presence penalty(存在惩罚)0.0

系统提示词

您可以使用简单的系统提示词,例如:

You are a helpful assistant

快速入门

llama.cpp(CUDA)

# Clone the PrismML fork of llama.cpp (includes Q1_0 kernels)
git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp

# Build with CUDA support
cmake -B build -DGGML_CUDA=ON && cmake --build build -j

# Run inference
./build/bin/llama-cli \
    -m Bonsai-8B-Q1_0.gguf \
    -p "Explain quantum computing in simple terms." \
    -n 256 \
    --temp 0.5 \
    --top-p 0.85 \
    --top-k 20 \
    -ngl 99

llama.cpp(Metal / macOS)

# Clone the PrismML fork of llama.cpp (includes Q1_0 kernels)
git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp

# Build with Metal support (default on macOS)
cmake -B build && cmake --build build -j

# Run inference
./build/bin/llama-cli \
    -m Bonsai-8B-Q1_0.gguf \
    -p "Explain quantum computing in simple terms." \
    -n 256 \
    --temp 0.5 \
    --top-p 0.85 \
    --top-k 20 \
    -ngl 99

llama.cpp 服务器

./build/bin/llama-server \
    -m Bonsai-8B-Q1_0.gguf \
    --host 0.0.0.0 \
    --port 8080 \
    -ngl 99

在 http://127.0.0.1:8080 打开 Web UI,或查看我们的 llama.cpp 分支 获取更多示例。

跨平台吞吐量

平台后端TG128(令牌/秒)FP16 TG(令牌/秒)TG 与 FP16 对比PP512(令牌/秒)FP16 PP512(令牌/秒)
RTX 4090llama.cpp CUDA368596.2 倍11,80910,453
RTX L40Sllama.cpp CUDA327526.3 倍9,5928,325
RTX 3060 笔记本电脑llama.cpp CUDA813.5¹23 倍¹1,87194¹
M4 Pro 48 GBllama.cpp Metal85165.4 倍498490
Samsung S25 Ultrallama.cpp OpenCL19.6——30.4—

¹ FP16 仅部分能放入 GPU 的 6 GB 显存;1 位则完全能放入显存。

Cross-platform throughput

能效

平台Bonsai E_tg(毫瓦时/令牌)基准 E_tg优势
RTX 4090 (CUDA)0.2761.134 (FP16)4.1 倍
Mac M4 Pro (Metal)0.0910.471 (FP16)5.1 倍

Energy efficiency

基准测试

在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估,基础设施、生成参数和评分均保持一致。所有模型的参数范围均在 60 亿至 90 亿之间。

模型公司大小平均值MMLU-RMuSRGSM8KHE+IFEvalBFCL
Qwen 3 8BAlibaba16 GB79.383559382.384.281
RNJ 8BEssentialAI16 GB73.175.550.493.784.273.861.1
Mistral3 8BMistral16 GB71.073.953.887.267.475.445.4
Olmo 3 7BAllen Inst14 GB70.97256.192.579.337.138.4
1-bit Bonsai 8BPrismML1.15 GB70.565.7508873.879.865.7
LFM2 8BLiquidAI16 GB69.672.749.590.18182.262.0
Llama 3.1 8BMeta16 GB67.172.951.387.97551.5—
GLM v6 9BZhipuAI16 GB65.761.943.293.478.769.321.9
Hermes 8BNous Research16 GB65.467.452.282.951.26573.5
Trinity Nano 6BArcee12 GB61.268.852.681.1545062.5
Marin 8BStanford CRFM16 GB56.664.842.686.45150—
R1-D 7BDeepSeek14 GB55.162.529.192.781.748.815.4

尽管体积仅为 1/14,1-bit Bonsai 8B 仍可与领先的全精度 8B 指令模型相媲美。

智能密度

智能密度体现了模型能力与其部署规模之间的比例:

alpha = -ln(1 - score/100) / size_GB
模型大小智能密度 (1/GB)
1-bit Bonsai 8B1.15 GB1.062
Qwen 3 8B16 GB0.098
Llama 3.1 8B16 GB0.074
Mistral3 8B16 GB0.077

Bonsai 8B 的智能密度比全精度 Qwen 3 8B 高出 10.8 倍。

Intelligence density

应用场景

  • 设备端助手:在笔记本电脑和手机上实现低延迟的交互式 AI
  • 移动部署:由于内存占用低,可在多种手机上运行
  • 边缘机器人与自主系统:在受散热、内存或连接性限制的设备上实现紧凑部署
  • 成本敏感型 GPU 服务:在 RTX 级和数据中心 GPU 上实现更高吞吐量和更低每令牌能耗
  • 企业与私有推理:满足数据驻留要求的本地或受控环境推理

局限性

  • 目前尚无原生 1 位硬件——当前的性能提升是通过通用硬件上的软件内核优化实现的
  • 移动设备功耗测量为估算值,非硬件计量值
  • 全精度基准领域仍在不断发展;1 位方法与架构无关,将应用于更新的基础模型

引用

如果您使用 1-bit Bonsai 8B,请引用:

@techreport{bonsai8b,
    title   = {1-bit Bonsai 8B: End-to-End 1-bit Language Model Deployment
               Across Apple, GPU, and Mobile Runtimes},
    author  = {Prism ML},
    year    = {2026},
    month   = {March},
    url     = {https://prismml.com}
}

联系方式

如您有任何问题、反馈或合作意向,请联系:contact@prismml.com