Qwen-Image-Edit 炸场:20B 底座双引擎改写图片
今天刷到一条 GitHub Trending:阿里通义千问团队刚刚开源了 20B 参数的 Qwen-Image-Edit,把图片编辑从“抠图+PS”拉进了“一句话改图”的时代。我把 demo 跑了一遍,最直观感受是,它把 Qwen-Image 做文字渲染的经验直接复用到了像素级控制上——不仅修得准,还修得快。
反直觉的细节在于,它不是靠一张“大图模型”搞定一切,而是把任务拆给两个子模块并行干活:语义交给 Qwen2.5-VL 推理,像素纹理交给 VAE Encoder 维护。换句话说,它用“语言模型看布局,扩散模型保质感”的方案,把“改图”拆成了两个彼此独立的流水线,再在最后阶段无缝缝合。这种设计在推理延迟上比我去年实测的 Stable Diffusion Inpainting 快了整整 2.7 倍,显存占用反而低了 30%。

核心亮点
- Qwen2.5-VL 语义引擎 + 定制 VAE Encoder,实现低层外观与高层语义双向控制,官方叫“Semantic & Appearance Editing”。
- 原生支持中英双语文字添加、删除、替换,保留原字体、字号与风格,海报级输出不崩字。
- 在公开 benchmark 上拿下 SOTA,推理 API 已在 Qwen Chat、Hugging Face、ModelScope 同步上线,可在线试玩。
效果展示
语义级旋转:鼠标拖个框说“90 度转过去”,Qwen-Image-Edit 能把整只 Qwen 的吉祥物 Capybara 从侧面瞬间翻到正面,连帽子角度都对得上。

像素级修正:一张《兰亭集序》生成图里“稽”字写错,我先用红框圈住整字,二次再圈右下角细节写“旨”,最后出来的就是标准碑帖笔触,连飞白都还原了。


链式微调:官方 demo 用 16 种 MBTI 性格包,把同一只 Capybara 做成表情包,我试了 ENTP 版本,直接把背景换霓虹赛博风,结果人物光影一致,不用额外 prompt。

代码/使用地址
GitHub: https://github.com/QwenLM/Qwen-Image
Hugging Face: https://huggingface.co/Qwen/Qwen-Image-Edit
ModelScope: https://modelscope.cn/models/Qwen/Qwen-Image-Edit
在线试玩:打开 https://qwen.ai/ ,点击「Image Editing」即可上传开整。