简介

今年9月，我们荣幸地推出Qwen-Image-Edit-2509，这是Qwen-Image-Edit的月度迭代版本。想要体验最新模型，请访问通义千问并选择“图片编辑”功能。与8月发布的Qwen-Image-Edit相比，Qwen-Image-Edit-2509的主要改进包括：

支持多图编辑：针对多图输入，Qwen-Image-Edit-2509在Qwen-Image-Edit架构基础上，通过图像拼接进一步训练，实现了多图编辑。支持“人像+人像”“人像+产品”“人像+场景”等多种组合，目前在1-3张输入图像时表现最佳。
提升单图编辑一致性：对于单图输入，Qwen-Image-Edit-2509显著提升了编辑一致性，具体体现在以下方面：
- 增强人像编辑一致性：更好地保留面部身份特征，支持多种人像风格及姿态变换；
- 增强产品编辑一致性：更好地保留产品身份特征，支持产品海报编辑；
- 增强文字编辑一致性：除修改文字内容外，还支持编辑文字字体、颜色及材质；
原生支持ControlNet：包括深度图、边缘图、关键点图等。

快速开始

安装最新版本的 diffusers

pip install git+https://github.com/huggingface/diffusers

以下是展示如何使用 Qwen-Image-Edit-2509 的代码片段：

import os
import torch
from PIL import Image
from diffusers import QwenImageEditPlusPipeline

pipeline = QwenImageEditPlusPipeline.from_pretrained("Qwen/Qwen-Image-Edit-2509", torch_dtype=torch.bfloat16)
print("pipeline loaded")

pipeline.to('cuda')
pipeline.set_progress_bar_config(disable=None)
image1 = Image.open("input1.png")
image2 = Image.open("input2.png")
prompt = "The magician bear is on the left, the alchemist bear is on the right, facing each other in the central park square."
inputs = {
    "image": [image1, image2],
    "prompt": prompt,
    "generator": torch.manual_seed(0),
    "true_cfg_scale": 4.0,
    "negative_prompt": " ",
    "num_inference_steps": 40,
    "guidance_scale": 1.0,
    "num_images_per_prompt": 1,
}
with torch.inference_mode():
    output = pipeline(**inputs)
    output_image = output.images[0]
    output_image.save("output_image_edit_plus.png")
    print("image saved at", os.path.abspath("output_image_edit_plus.png"))

展示案例

Qwen-Image-Edit-2509 的主要更新是支持多图输入。

我们先来看一个“人物+人物”的示例：
Person + Person Example

这是一个“人物+场景”的示例：
Person + Scene Example

以下是“人物+物体”的示例：
Person + Object Example

实际上，多图输入还支持常用的 ControlNet 关键点图——例如，改变人物姿势：
ControlNet Keypoint Example

同样，以下示例展示了使用三张输入图像的结果：
Three Images Example 1
Three Images Example 2
Three Images Example 3

Qwen-Image-Edit-2509 的另一项重要更新是增强了一致性。

首先，在人物一致性方面，Qwen-Image-Edit-2509 相较于 Qwen-Image-Edit 有显著提升。以下是生成多种人像风格的示例：
Portrait Styles Example

例如，改变人物姿势的同时保持出色的身份一致性：
Pose Change with Identity Consistency

借助这一改进，结合 Qwen-Image 独特的文字渲染能力，我们发现 Qwen-Image-Edit-2509 非常擅长制作表情包：
Meme Image Example

当然，即使是较长的文本，Qwen-Image-Edit-2509 也能在保留人物身份的同时进行渲染：
Long Text with Identity Preservation

人物一致性在老照片修复中也有所体现。以下是两个示例：
Old Photo Restoration 1
Old Photo Restoration 2

自然，除了真实人物，生成卡通角色和文创作品也是可行的：
Cartoon & Cultural Creation

其次，Qwen-Image-Edit-2509 特别增强了产品一致性。我们发现，该模型能够从纯色背景的产品图片自然生成产品海报：
Product Poster Example

甚至是简单的 logo：
Logo Generation Example

第三，Qwen-Image-Edit-2509 特别增强了文本一致性，并支持编辑字体类型、字体颜色和字体材质：
Text Font Type
Text Font Color
Text Font Material

此外，精准文本编辑能力也得到了显著提升：
Precise Text Editing 1
Precise Text Editing 2

值得注意的是，文本编辑通常可以与图像编辑无缝结合——例如，在这个海报编辑案例中：
Integrated Text & Image Editing

Qwen-Image-Edit-2509 的最后一项更新是原生支持常用的 ControlNet 图像条件，如关键点控制和草图：
Keypoint Control Example
Sketch Control Example 1
Sketch Control Example 2

许可协议

Qwen-Image 根据 Apache 2.0 许可协议授权。

引用

如果您发现我们的工作对您有所帮助，我们恳请您引用我们的成果。

@misc{wu2025qwenimagetechnicalreport,
      title={Qwen-Image Technical Report}, 
      author={Chenfei Wu and Jiahao Li and Jingren Zhou and Junyang Lin and Kaiyuan Gao and Kun Yan and Sheng-ming Yin and Shuai Bai and Xiao Xu and Yilei Chen and Yuxiang Chen and Zecheng Tang and Zekai Zhang and Zhengyi Wang and An Yang and Bowen Yu and Chen Cheng and Dayiheng Liu and Deqing Li and Hang Zhang and Hao Meng and Hu Wei and Jingyuan Ni and Kai Chen and Kuan Cao and Liang Peng and Lin Qu and Minggang Wu and Peng Wang and Shuting Yu and Tingkun Wen and Wensen Feng and Xiaoxiao Xu and Yi Wang and Yichang Zhang and Yongqiang Zhu and Yujia Wu and Yuxuan Cai and Zenan Liu},
      year={2025},
      eprint={2508.02324},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2508.02324}, 
}

简介

支持多图编辑：针对多图输入，Qwen-Image-Edit-2509在Qwen-Image-Edit架构基础上，通过图像拼接进一步训练，实现了多图编辑。支持“人像+人像”“人像+产品”“人像+场景”等多种组合，目前在1-3张输入图像时表现最佳。
提升单图编辑一致性：对于单图输入，Qwen-Image-Edit-2509显著提升了编辑一致性，具体体现在以下方面：
- 增强人像编辑一致性：更好地保留面部身份特征，支持多种人像风格及姿态变换；
- 增强产品编辑一致性：更好地保留产品身份特征，支持产品海报编辑；
- 增强文字编辑一致性：除修改文字内容外，还支持编辑文字字体、颜色及材质；
原生支持ControlNet：包括深度图、边缘图、关键点图等。