Z-Image-Engineer V6 (4B)

模型元数据

键	值
许可证	Apache-2.0
语言	英语 (`en`)
基础模型	`Tongyi-MAI/Z-Image-Turbo`
库	`transformers`
管道标签	`text-generation`
格式	HF Safetensors

Z-Engineer 强势回归，围绕 SMART DoRA 训练系统为 Z-Image Turbo 进行了全面重构。

没错，我们从 V4 直接跳到了 V6。这可不是寻常的“大概齐”算法，这次是实实在在地带来了显著提升。

Z-Image-Engineer V6 是基于 4B Qwen 文本编码器（Tongyi-MAI/Z-Image-Turbo）进行精调的模型，针对双重角色性能进行了优化：本地提示词增强模型和用于 Z-Image 工作流的合并 HF 文本编码器。从本版本开始，ComfyUI-Z-Engineer 节点可在 ComfyUI 内部完整运行这两个角色。

Z-Image-Engineer V6 简单 A/B 对比与重写示例

什么是 Z-Image-Engineer V6？

V6 能将简短的种子提示词转化为丰富且结构清晰的视觉描述。它会添加明确的场景构图、光线方向、材质纹理和深度层次，同时去除像“8k，杰作，ArtStation 热门作品”这类空洞无物的提示词冗余。

它也可以直接用作 Z-Image 文本编码器。本仓库包含合并后的 HF safetensors 文件。GGUF 量化版本发布在配套仓库：Z-Image-Engineer-V6-GGUF。

主要使用场景

提示词增强：在本地将简单概念升级为描述性强、高保真的视觉提示词。
文本编码器替换：替换 Z-Image 原有的 Qwen 文本编码器，从相同的种子生成不同的条件。
混合模式：使用 V6 重写提示词，然后再次使用 V6 对其进行编码。它既负责构建场景，也驱动图像模型。
私有本地工作流：专为 LM Studio、ComfyUI 和 llama.cpp 打造。无 API 日志，无外部遥测。

底层技术：SMART DoRA

V4 开创了 SMART 训练模式。V6 将该系统调整为权重分解低秩适应（DoRA） 框架。

DoRA 通过分离方向调整和幅度调整，实现精准的适配器更新。SMART 增加辅助约束，防止模型陷入重复提示循环或表面化句式。

正则化器	功能	重要性
熵正则化	扩大输出概率多样性	减少重复循环和通用词汇
全息正则化	强化结构化、深度特征逻辑	提升前景/背景层次关系
拓扑正则化	稳定连贯的潜在轨迹	确保提示自然流畅，避免卡顿
流形正则化	调节整体权重分布	保证模型在高强度优化下行为稳定

优化流程

V6 并非简单的一次性训练。最终架构是混合组合的结果：

基础阶段：在原生 Z-Image Turbo 文本编码器上进行主语料库 SMART DoRA 训练。
保留阶段：对数字、颜色准确性、文本标识、命名对象、动作和空间追踪施加保留约束。
SceneClean SFT32：通过监督优化恢复 V4/base-V6 的电影级风格。
AntiRepeat Binary24：二进制防重复优化，减少循环、突兀片段和不良结尾。
最终融合：25% 风格恢复 / 75% 防重复 DoRA 适配器融合，平衡生动描述与紧凑语法。

快速开始

LM Studio：提示增强

直接在支持的平台使用此合并的 HF 版本，或从 Z-Image-Engineer-V6-GGUF 下载 GGUF 量化版本用于 LM Studio。无需复杂的系统提示。

Enhance this image prompt for Z-Image Turbo: a unicorn

这些对比示例是通过 LM Studio 用户的直接请求生成的，未使用单独的系统提示词。V6_SYSTEM_PROMPT.md 仅作为可选预设提供，供希望使用更严格的纯提示词聊天设置的用户使用。

ComfyUI：文本编码器 + 本地提示词增强器

使用 ComfyUI-Z-Engineer 自定义节点（v2.0+ 版本）。该节点可直接加载本仓库的分片 safetensors 模型文件，并将 V6 同时用作 Z-Image 文本编码器和 ComfyUI 内的提示词增强器——无需 LM Studio 或外部服务器。

将本仓库下载至 ComfyUI/models/text_encoders/Z-Image-Engineer-V6/ 目录（包含三个 model-0000X-of-00003.safetensors 分片文件以及 model.safetensors.index.json）。
添加 Z-Engineer CLIP Loader (Safetensors / Shards) 节点，并从下拉菜单中选择 Z-Image-Engineer-V6/。
将 clip 连接到您的 Z-Image CLIP Text Encode 节点——V6 将替换默认的 Qwen 文本编码器。
可选步骤：添加 Z-Engineer Prompt Enhancer (Local) 节点，并连接相同的 clip，以在处理过程中重写初始提示词；增强后的提示词会直接在节点上预览。

节点仓库中提供了一个现成的工作流：example_workflows/z_image_turbo_z_engineer.json。

希望文件更小？可使用 Z-Image-Engineer-V6-GGUF 中的量化模型，并搭配节点的 Z-Engineer CLIP Loader (GGUF) 节点。

已验证的图像设置

UNET: z_image_turbo_bf16.safetensors
VAE: ae.safetensors
Text Encoder: Z-Image-Engineer-V6 (this repo's sharded safetensors, or a GGUF quant)
Resolution: 1024x1024
Steps: 8
CFG: 1.0
Sampler: res_multistep
Scheduler: simple
Shift: 3.0

训练详情

参数	规格
基础文本编码器	`Tongyi-MAI/Z-Image-Turbo/text_encoder`
分词器	`Tongyi-MAI/Z-Image-Turbo/tokenizer`
训练方法	SMART DoRA / PEFT 适配器训练
秩 / 阿尔法系数 / 丢弃率	64 / 64 / 0.03
目标模块	`q_proj`, `k_proj`, `v_proj`, `o_proj`, `gate_proj`, `down_proj`, `up_proj`
优化流程	监督式风格 SFT + 二进制防重复
最终打包格式	合并的 HF safetensors

GGUF 量化等级

量化版本特意单独发布：

BennyDaBall/Z-Image-Engineer-V6-GGUF

该仓库包含完整的 GGUF 量化等级：F16、Q8_0、Q6_K、Q5_K_M、Q4_K_M、Q3_K_M 和 MXFP4。

验证与证明

随附的对比图片为：

evidence/gallery_z_image_engineer_v6_simple_ab_with_rewrites_CONTACT.png

它会在四条独立的控制路径中对基础提示词进行比较：

原生编码器 + 原始提示词
V6 编码器 + 原始提示词
原生编码器 + V6 LM Studio 重写提示词
V6 编码器 + V6 LM Studio 重写提示词

免责声明与致谢

本模型是一个提示词工程工具和文本编码器。扩散模型的本质未变；结构扩展虽能增强构图的贴合度，但无法从数学层面确保每次都生成完美的种子图像。请在本地使用时结合创意判断。

感谢 Tongyi-MAI 为 Z-Image Turbo 生态系统提供支持。
感谢 Qwen 提供适应性强的文本编码器基础架构。
感谢 LM Studio、ComfyUI、llama.cpp、PEFT 和 Transformers 的开源维护者。
感谢我的本地电力供应商，为研究供电网络提供了支持。

由 BennyDaBall 精心在本地构建和训练。