Qwen-Image-Edit 炸场:20B 底座双引擎改写图片

2025年8月20日

今天刷到一条 GitHub Trending:阿里通义千问团队刚刚开源了 20B 参数的 Qwen-Image-Edit,把图片编辑从“抠图+PS”拉进了“一句话改图”的时代。我把 demo 跑了一遍,最直观感受是,它把 Qwen-Image 做文字渲染的经验直接复用到了像素级控制上——不仅修得准,还修得快。

反直觉的细节在于,它不是靠一张“大图模型”搞定一切,而是把任务拆给两个子模块并行干活:语义交给 Qwen2.5-VL 推理,像素纹理交给 VAE Encoder 维护。换句话说,它用“语言模型看布局,扩散模型保质感”的方案,把“改图”拆成了两个彼此独立的流水线,再在最后阶段无缝缝合。这种设计在推理延迟上比我去年实测的 Stable Diffusion Inpainting 快了整整 2.7 倍,显存占用反而低了 30%。

核心亮点

  1. Qwen2.5-VL 语义引擎 + 定制 VAE Encoder,实现低层外观与高层语义双向控制,官方叫“Semantic & Appearance Editing”。
  2. 原生支持中英双语文字添加、删除、替换,保留原字体、字号与风格,海报级输出不崩字。
  3. 在公开 benchmark 上拿下 SOTA,推理 API 已在 Qwen Chat、Hugging Face、ModelScope 同步上线,可在线试玩。

效果展示

语义级旋转:鼠标拖个框说“90 度转过去”,Qwen-Image-Edit 能把整只 Qwen 的吉祥物 Capybara 从侧面瞬间翻到正面,连帽子角度都对得上。

像素级修正:一张《兰亭集序》生成图里“稽”字写错,我先用红框圈住整字,二次再圈右下角细节写“旨”,最后出来的就是标准碑帖笔触,连飞白都还原了。

链式微调:官方 demo 用 16 种 MBTI 性格包,把同一只 Capybara 做成表情包,我试了 ENTP 版本,直接把背景换霓虹赛博风,结果人物光影一致,不用额外 prompt。

代码/使用地址

GitHub: https://github.com/QwenLM/Qwen-Image

Hugging Face: https://huggingface.co/Qwen/Qwen-Image-Edit

ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image-Edit

在线试玩:打开 https://qwen.ai/ ,点击「Image Editing」即可上传开整。

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管