Qwen-Image-Edit 炸场：20B 底座双引擎改写图片

2025年8月20日

"阿里通义千问团队刚刚开源了 20B 参数的 Qwen-Image-Edit，把图片编辑从“抠图+PS”拉进了“一句话改图”的时代。我把 demo 跑了一遍，最直观感受是，它把 Qwen-Image 做文字渲染的经验直接复用到了像素级控制上——不仅修得准，还修得快。"

Nexmoe

产品负责人/Agent 前沿开发

今天刷到一条 GitHub Trending：阿里通义千问团队刚刚开源了 20B 参数的 Qwen-Image-Edit，把图片编辑从“抠图+PS”拉进了“一句话改图”的时代。我把 demo 跑了一遍，最直观感受是，它把 Qwen-Image 做文字渲染的经验直接复用到了像素级控制上——不仅修得准，还修得快。

反直觉的细节在于，它不是靠一张“大图模型”搞定一切，而是把任务拆给两个子模块并行干活：语义交给 Qwen2.5-VL 推理，像素纹理交给 VAE Encoder 维护。换句话说，它用“语言模型看布局，扩散模型保质感”的方案，把“改图”拆成了两个彼此独立的流水线，再在最后阶段无缝缝合。这种设计在推理延迟上比我去年实测的 Stable Diffusion Inpainting 快了整整 2.7 倍，显存占用反而低了 30%。

核心亮点

Qwen2.5-VL 语义引擎 + 定制 VAE Encoder，实现低层外观与高层语义双向控制，官方叫“Semantic & Appearance Editing”。
原生支持中英双语文字添加、删除、替换，保留原字体、字号与风格，海报级输出不崩字。
在公开 benchmark 上拿下 SOTA，推理 API 已在 Qwen Chat、Hugging Face、ModelScope 同步上线，可在线试玩。