Prism ML 官网 | 白皮书 | 演示与示例 | Colab 笔记本 | Discord

Bonsai-8B-GGUF-1bit

面向 llama.cpp 的端到端 1 位语言模型（支持 CUDA、Metal、CPU）

比 FP16 小 14.1 倍 | 在 RTX 4090 上快 6.2 倍 | 每 token 能耗降低 4-5 倍

亮点

1.15 GB 参数内存（从 FP16 的 16.38 GB 缩减）—— 几乎可在任何配备 GPU 的设备上运行
端到端 1 位权重，覆盖嵌入层、注意力投影层、MLP 投影层及语言模型头
GGUF Q1_0 (g128) 格式，内置反量化内核 — 无需 FP16 数据实例化
跨平台支持：CUDA（RTX/数据中心）、Metal（Mac）、Android、CPU
性能基准表现优异：6 个类别平均得分 70.5，在仅为全精度 8B 模型 1/14 大小的情况下与之性能相当
MLX 版本：同时提供 MLX 1-bit g128 版本，支持 Apple Silicon 原生推理

Frontier Efficiency

资源

Google Colab — 直接在浏览器中试用 Bonsai，无需任何设置
白皮书 — 了解 Bonsai 更多详情，请查阅我们的白皮书
演示仓库 — 包含服务部署、性能基准测试和集成 Bonsai 的综合示例
Discord — 加入社区获取支持、参与讨论并获取最新动态
1 位内核：llama.cpp 分支（CUDA + Metal）· MLX 分支（Apple Silicon）· mlx-swift 分支（iOS/macOS）
Locally AI — 我们与 Locally AI 合作提供 iPhone 支持

模型概述

项目	规格
参数数量	8.19B（约6.95B非嵌入参数）
架构	Qwen3-8B 密集型：GQA（32个查询头 / 8个键值头）、SwiGLU MLP、RoPE、RMSNorm
层数	36个Transformer解码器块
上下文长度	65,536个token
词汇表大小	151,936
权重格式	GGUF Q1_0
部署大小	1.15 GB（比FP16小14.2倍）
1位覆盖范围	嵌入层、注意力投影层、MLP投影层、语言模型头
许可证	Apache 2.0

量化格式：Q1_0

每个权重为单个位：0 映射到 −scale，1 映射到 +scale。每128个权重共享一个FP16比例因子。

每权重有效位数：1.125（1个符号位 + 16位比例因子分摊到128个权重）。

内存需求

仅参数内存（加载到内存中的权重和比例因子）：

格式	大小	缩减比例	压缩比
FP16	16.38 GB	—	1.0x
GGUF Q1_0	1.15 GB	93.0%	14.2x
MLX 1-bit g128	1.28 GB	92.2%	12.8x

磁盘上的GGUF文件为1.16 GB（约大6.6 MB），因为该格式将分词器、对话模板和模型元数据与权重一起嵌入。

最佳实践

生成参数

参数	默认值	建议范围
Temperature（温度）	0.5	0.5 -- 0.7
Top-k	20	20 -- 40
Top-p	0.9	0.85 -- 0.95
Repetition penalty（重复惩罚）	1.0
Presence penalty（存在惩罚）	0.0

系统提示词

您可以使用简单的系统提示词，例如：

You are a helpful assistant

快速入门

llama.cpp（CUDA）

# Clone the PrismML fork of llama.cpp (includes Q1_0 kernels)
git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp

# Build with CUDA support
cmake -B build -DGGML_CUDA=ON && cmake --build build -j

# Run inference
./build/bin/llama-cli \
    -m Bonsai-8B-Q1_0.gguf \
    -p "Explain quantum computing in simple terms." \
    -n 256 \
    --temp 0.5 \
    --top-p 0.85 \
    --top-k 20 \
    -ngl 99

llama.cpp（Metal / macOS）

# Clone the PrismML fork of llama.cpp (includes Q1_0 kernels)
git clone https://github.com/PrismML-Eng/llama.cpp
cd llama.cpp

# Build with Metal support (default on macOS)
cmake -B build && cmake --build build -j

# Run inference
./build/bin/llama-cli \
    -m Bonsai-8B-Q1_0.gguf \
    -p "Explain quantum computing in simple terms." \
    -n 256 \
    --temp 0.5 \
    --top-p 0.85 \
    --top-k 20 \
    -ngl 99

llama.cpp 服务器

./build/bin/llama-server \
    -m Bonsai-8B-Q1_0.gguf \
    --host 0.0.0.0 \
    --port 8080 \
    -ngl 99

在 http://127.0.0.1:8080 打开 Web UI，或查看我们的 llama.cpp 分支获取更多示例。

跨平台吞吐量

平台	后端	TG128（令牌/秒）	FP16 TG（令牌/秒）	TG 与 FP16 对比	PP512（令牌/秒）	FP16 PP512（令牌/秒）
RTX 4090	llama.cpp CUDA	368	59	6.2 倍	11,809	10,453
RTX L40S	llama.cpp CUDA	327	52	6.3 倍	9,592	8,325
RTX 3060 笔记本电脑	llama.cpp CUDA	81	3.5¹	23 倍¹	1,871	94¹
M4 Pro 48 GB	llama.cpp Metal	85	16	5.4 倍	498	490
Samsung S25 Ultra	llama.cpp OpenCL	19.6	—	—	30.4	—

¹ FP16 仅部分能放入 GPU 的 6 GB 显存；1 位则完全能放入显存。

Cross-platform throughput

能效

平台	Bonsai E_tg（毫瓦时/令牌）	基准 E_tg	优势
RTX 4090 (CUDA)	0.276	1.134 (FP16)	4.1 倍
Mac M4 Pro (Metal)	0.091	0.471 (FP16)	5.1 倍

Energy efficiency

基准测试

在 NVIDIA H100 上使用 EvalScope v1.4.2 + vLLM 0.15.1 进行评估，基础设施、生成参数和评分均保持一致。所有模型的参数范围均在 60 亿至 90 亿之间。

模型	公司	大小	平均值	MMLU-R	MuSR	GSM8K	HE+	IFEval	BFCL
Qwen 3 8B	Alibaba	16 GB	79.3	83	55	93	82.3	84.2	81
RNJ 8B	EssentialAI	16 GB	73.1	75.5	50.4	93.7	84.2	73.8	61.1
Mistral3 8B	Mistral	16 GB	71.0	73.9	53.8	87.2	67.4	75.4	45.4
Olmo 3 7B	Allen Inst	14 GB	70.9	72	56.1	92.5	79.3	37.1	38.4
1-bit Bonsai 8B	PrismML	1.15 GB	70.5	65.7	50	88	73.8	79.8	65.7
LFM2 8B	LiquidAI	16 GB	69.6	72.7	49.5	90.1	81	82.2	62.0
Llama 3.1 8B	Meta	16 GB	67.1	72.9	51.3	87.9	75	51.5	—
GLM v6 9B	ZhipuAI	16 GB	65.7	61.9	43.2	93.4	78.7	69.3	21.9
Hermes 8B	Nous Research	16 GB	65.4	67.4	52.2	82.9	51.2	65	73.5
Trinity Nano 6B	Arcee	12 GB	61.2	68.8	52.6	81.1	54	50	62.5
Marin 8B	Stanford CRFM	16 GB	56.6	64.8	42.6	86.4	51	50	—
R1-D 7B	DeepSeek	14 GB	55.1	62.5	29.1	92.7	81.7	48.8	15.4

尽管体积仅为 1/14，1-bit Bonsai 8B 仍可与领先的全精度 8B 指令模型相媲美。

智能密度

智能密度体现了模型能力与其部署规模之间的比例：

alpha = -ln(1 - score/100) / size_GB

模型	大小	智能密度 (1/GB)
1-bit Bonsai 8B	1.15 GB	1.062
Qwen 3 8B	16 GB	0.098
Llama 3.1 8B	16 GB	0.074
Mistral3 8B	16 GB	0.077

Bonsai 8B 的智能密度比全精度 Qwen 3 8B 高出 10.8 倍。

Intelligence density

应用场景

设备端助手：在笔记本电脑和手机上实现低延迟的交互式 AI
移动部署：由于内存占用低，可在多种手机上运行
边缘机器人与自主系统：在受散热、内存或连接性限制的设备上实现紧凑部署
成本敏感型 GPU 服务：在 RTX 级和数据中心 GPU 上实现更高吞吐量和更低每令牌能耗
企业与私有推理：满足数据驻留要求的本地或受控环境推理

局限性

目前尚无原生 1 位硬件——当前的性能提升是通过通用硬件上的软件内核优化实现的
移动设备功耗测量为估算值，非硬件计量值
全精度基准领域仍在不断发展；1 位方法与架构无关，将应用于更新的基础模型

引用

如果您使用 1-bit Bonsai 8B，请引用：

@techreport{bonsai8b,
    title   = {1-bit Bonsai 8B: End-to-End 1-bit Language Model Deployment
               Across Apple, GPU, and Mobile Runtimes},
    author  = {Prism ML},
    year    = {2026},
    month   = {March},
    url     = {https://prismml.com}
}

联系方式

如您有任何问题、反馈或合作意向，请联系：contact@prismml.com