| 键 | 值 |
|---|---|
| 许可证 | Apache-2.0 |
| 语言 | 英语 (en) |
| 基础模型 | Tongyi-MAI/Z-Image-Turbo |
| 库 | transformers |
| 管道标签 | text-generation |
| 格式 | HF Safetensors |
Z-Engineer 强势回归,围绕 SMART DoRA 训练系统为 Z-Image Turbo 进行了全面重构。
没错,我们从 V4 直接跳到了 V6。这可不是寻常的“大概齐”算法,这次是实实在在地带来了显著提升。
Z-Image-Engineer V6 是基于 4B Qwen 文本编码器(Tongyi-MAI/Z-Image-Turbo)进行精调的模型,针对双重角色性能进行了优化:本地提示词增强模型和用于 Z-Image 工作流的合并 HF 文本编码器。从本版本开始,ComfyUI-Z-Engineer 节点可在 ComfyUI 内部完整运行这两个角色。

V6 能将简短的种子提示词转化为丰富且结构清晰的视觉描述。它会添加明确的场景构图、光线方向、材质纹理和深度层次,同时去除像“8k,杰作,ArtStation 热门作品”这类空洞无物的提示词冗余。
它也可以直接用作 Z-Image 文本编码器。本仓库包含合并后的 HF safetensors 文件。GGUF 量化版本发布在配套仓库:Z-Image-Engineer-V6-GGUF。
llama.cpp 打造。无 API 日志,无外部遥测。V4 开创了 SMART 训练模式。V6 将该系统调整为权重分解低秩适应(DoRA) 框架。
DoRA 通过分离方向调整和幅度调整,实现精准的适配器更新。SMART 增加辅助约束,防止模型陷入重复提示循环或表面化句式。
| 正则化器 | 功能 | 重要性 |
|---|---|---|
| 熵正则化 | 扩大输出概率多样性 | 减少重复循环和通用词汇 |
| 全息正则化 | 强化结构化、深度特征逻辑 | 提升前景/背景层次关系 |
| 拓扑正则化 | 稳定连贯的潜在轨迹 | 确保提示自然流畅,避免卡顿 |
| 流形正则化 | 调节整体权重分布 | 保证模型在高强度优化下行为稳定 |
V6 并非简单的一次性训练。最终架构是混合组合的结果:
直接在支持的平台使用此合并的 HF 版本,或从 Z-Image-Engineer-V6-GGUF 下载 GGUF 量化版本用于 LM Studio。无需复杂的系统提示。
Enhance this image prompt for Z-Image Turbo: a unicorn这些对比示例是通过 LM Studio 用户的直接请求生成的,未使用单独的系统提示词。V6_SYSTEM_PROMPT.md 仅作为可选预设提供,供希望使用更严格的纯提示词聊天设置的用户使用。
使用 ComfyUI-Z-Engineer 自定义节点(v2.0+ 版本)。该节点可直接加载本仓库的分片 safetensors 模型文件,并将 V6 同时用作 Z-Image 文本编码器和 ComfyUI 内的提示词增强器——无需 LM Studio 或外部服务器。
ComfyUI/models/text_encoders/Z-Image-Engineer-V6/ 目录(包含三个 model-0000X-of-00003.safetensors 分片文件以及 model.safetensors.index.json)。Z-Image-Engineer-V6/。clip 连接到您的 Z-Image CLIP Text Encode 节点——V6 将替换默认的 Qwen 文本编码器。clip,以在处理过程中重写初始提示词;增强后的提示词会直接在节点上预览。节点仓库中提供了一个现成的工作流:example_workflows/z_image_turbo_z_engineer.json。
希望文件更小?可使用 Z-Image-Engineer-V6-GGUF 中的量化模型,并搭配节点的 Z-Engineer CLIP Loader (GGUF) 节点。
UNET: z_image_turbo_bf16.safetensors
VAE: ae.safetensors
Text Encoder: Z-Image-Engineer-V6 (this repo's sharded safetensors, or a GGUF quant)
Resolution: 1024x1024
Steps: 8
CFG: 1.0
Sampler: res_multistep
Scheduler: simple
Shift: 3.0| 参数 | 规格 |
|---|---|
| 基础文本编码器 | Tongyi-MAI/Z-Image-Turbo/text_encoder |
| 分词器 | Tongyi-MAI/Z-Image-Turbo/tokenizer |
| 训练方法 | SMART DoRA / PEFT 适配器训练 |
| 秩 / 阿尔法系数 / 丢弃率 | 64 / 64 / 0.03 |
| 目标模块 | q_proj, k_proj, v_proj, o_proj, gate_proj, down_proj, up_proj |
| 优化流程 | 监督式风格 SFT + 二进制防重复 |
| 最终打包格式 | 合并的 HF safetensors |
量化版本特意单独发布:
BennyDaBall/Z-Image-Engineer-V6-GGUF
该仓库包含完整的 GGUF 量化等级:F16、Q8_0、Q6_K、Q5_K_M、Q4_K_M、Q3_K_M 和 MXFP4。
随附的对比图片为:
evidence/gallery_z_image_engineer_v6_simple_ab_with_rewrites_CONTACT.png它会在四条独立的控制路径中对基础提示词进行比较:
本模型是一个提示词工程工具和文本编码器。扩散模型的本质未变;结构扩展虽能增强构图的贴合度,但无法从数学层面确保每次都生成完美的种子图像。请在本地使用时结合创意判断。
由 BennyDaBall 精心在本地构建和训练。