HuggingFace镜像/Z-Image-Engineer-V6
模型介绍文件和版本分析
下载使用量0

Z-Image-Engineer V6 (4B)

模型元数据

键值
许可证Apache-2.0
语言英语 (en)
基础模型Tongyi-MAI/Z-Image-Turbo
库transformers
管道标签text-generation
格式HF Safetensors

Z-Engineer 强势回归,围绕 SMART DoRA 训练系统为 Z-Image Turbo 进行了全面重构。

没错,我们从 V4 直接跳到了 V6。这可不是寻常的“大概齐”算法,这次是实实在在地带来了显著提升。

Z-Image-Engineer V6 是基于 4B Qwen 文本编码器(Tongyi-MAI/Z-Image-Turbo)进行精调的模型,针对双重角色性能进行了优化:本地提示词增强模型和用于 Z-Image 工作流的合并 HF 文本编码器。从本版本开始,ComfyUI-Z-Engineer 节点可在 ComfyUI 内部完整运行这两个角色。

Z-Image-Engineer V6 简单 A/B 对比与重写示例


什么是 Z-Image-Engineer V6?

V6 能将简短的种子提示词转化为丰富且结构清晰的视觉描述。它会添加明确的场景构图、光线方向、材质纹理和深度层次,同时去除像“8k,杰作,ArtStation 热门作品”这类空洞无物的提示词冗余。

它也可以直接用作 Z-Image 文本编码器。本仓库包含合并后的 HF safetensors 文件。GGUF 量化版本发布在配套仓库:Z-Image-Engineer-V6-GGUF。

主要使用场景

  • 提示词增强:在本地将简单概念升级为描述性强、高保真的视觉提示词。
  • 文本编码器替换:替换 Z-Image 原有的 Qwen 文本编码器,从相同的种子生成不同的条件。
  • 混合模式:使用 V6 重写提示词,然后再次使用 V6 对其进行编码。它既负责构建场景,也驱动图像模型。
  • 私有本地工作流:专为 LM Studio、ComfyUI 和 llama.cpp 打造。无 API 日志,无外部遥测。

底层技术:SMART DoRA

V4 开创了 SMART 训练模式。V6 将该系统调整为权重分解低秩适应(DoRA) 框架。

DoRA 通过分离方向调整和幅度调整,实现精准的适配器更新。SMART 增加辅助约束,防止模型陷入重复提示循环或表面化句式。

正则化器功能重要性
熵正则化扩大输出概率多样性减少重复循环和通用词汇
全息正则化强化结构化、深度特征逻辑提升前景/背景层次关系
拓扑正则化稳定连贯的潜在轨迹确保提示自然流畅,避免卡顿
流形正则化调节整体权重分布保证模型在高强度优化下行为稳定

优化流程

V6 并非简单的一次性训练。最终架构是混合组合的结果:

  1. 基础阶段:在原生 Z-Image Turbo 文本编码器上进行主语料库 SMART DoRA 训练。
  2. 保留阶段:对数字、颜色准确性、文本标识、命名对象、动作和空间追踪施加保留约束。
  3. SceneClean SFT32:通过监督优化恢复 V4/base-V6 的电影级风格。
  4. AntiRepeat Binary24:二进制防重复优化,减少循环、突兀片段和不良结尾。
  5. 最终融合:25% 风格恢复 / 75% 防重复 DoRA 适配器融合,平衡生动描述与紧凑语法。

快速开始

LM Studio:提示增强

直接在支持的平台使用此合并的 HF 版本,或从 Z-Image-Engineer-V6-GGUF 下载 GGUF 量化版本用于 LM Studio。无需复杂的系统提示。

Enhance this image prompt for Z-Image Turbo: a unicorn

这些对比示例是通过 LM Studio 用户的直接请求生成的,未使用单独的系统提示词。V6_SYSTEM_PROMPT.md 仅作为可选预设提供,供希望使用更严格的纯提示词聊天设置的用户使用。

ComfyUI:文本编码器 + 本地提示词增强器

使用 ComfyUI-Z-Engineer 自定义节点(v2.0+ 版本)。该节点可直接加载本仓库的分片 safetensors 模型文件,并将 V6 同时用作 Z-Image 文本编码器和 ComfyUI 内的提示词增强器——无需 LM Studio 或外部服务器。

  1. 将本仓库下载至 ComfyUI/models/text_encoders/Z-Image-Engineer-V6/ 目录(包含三个 model-0000X-of-00003.safetensors 分片文件以及 model.safetensors.index.json)。
  2. 添加 Z-Engineer CLIP Loader (Safetensors / Shards) 节点,并从下拉菜单中选择 Z-Image-Engineer-V6/。
  3. 将 clip 连接到您的 Z-Image CLIP Text Encode 节点——V6 将替换默认的 Qwen 文本编码器。
  4. 可选步骤:添加 Z-Engineer Prompt Enhancer (Local) 节点,并连接相同的 clip,以在处理过程中重写初始提示词;增强后的提示词会直接在节点上预览。

节点仓库中提供了一个现成的工作流:example_workflows/z_image_turbo_z_engineer.json。

希望文件更小?可使用 Z-Image-Engineer-V6-GGUF 中的量化模型,并搭配节点的 Z-Engineer CLIP Loader (GGUF) 节点。

已验证的图像设置

UNET: z_image_turbo_bf16.safetensors
VAE: ae.safetensors
Text Encoder: Z-Image-Engineer-V6 (this repo's sharded safetensors, or a GGUF quant)
Resolution: 1024x1024
Steps: 8
CFG: 1.0
Sampler: res_multistep
Scheduler: simple
Shift: 3.0

训练详情

参数规格
基础文本编码器Tongyi-MAI/Z-Image-Turbo/text_encoder
分词器Tongyi-MAI/Z-Image-Turbo/tokenizer
训练方法SMART DoRA / PEFT 适配器训练
秩 / 阿尔法系数 / 丢弃率64 / 64 / 0.03
目标模块q_proj, k_proj, v_proj, o_proj, gate_proj, down_proj, up_proj
优化流程监督式风格 SFT + 二进制防重复
最终打包格式合并的 HF safetensors

GGUF 量化等级

量化版本特意单独发布:

BennyDaBall/Z-Image-Engineer-V6-GGUF

该仓库包含完整的 GGUF 量化等级:F16、Q8_0、Q6_K、Q5_K_M、Q4_K_M、Q3_K_M 和 MXFP4。


验证与证明

随附的对比图片为:

evidence/gallery_z_image_engineer_v6_simple_ab_with_rewrites_CONTACT.png

它会在四条独立的控制路径中对基础提示词进行比较:

  1. 原生编码器 + 原始提示词
  2. V6 编码器 + 原始提示词
  3. 原生编码器 + V6 LM Studio 重写提示词
  4. V6 编码器 + V6 LM Studio 重写提示词

免责声明与致谢

本模型是一个提示词工程工具和文本编码器。扩散模型的本质未变;结构扩展虽能增强构图的贴合度,但无法从数学层面确保每次都生成完美的种子图像。请在本地使用时结合创意判断。

  • 感谢 Tongyi-MAI 为 Z-Image Turbo 生态系统提供支持。
  • 感谢 Qwen 提供适应性强的文本编码器基础架构。
  • 感谢 LM Studio、ComfyUI、llama.cpp、PEFT 和 Transformers 的开源维护者。
  • 感谢我的本地电力供应商,为研究供电网络提供了支持。

由 BennyDaBall 精心在本地构建和训练。