IT之家 12 月 25 日消息,阿里通义 Qwen 团队于 12 月 23 日上线推出 Qwen-Image-Edit-2511 全新图像编辑模型,在 Qwen-Image-Edit-2509 基础上,减轻图像漂移、提升人物一致性、集成 LoRA 能力、增强工业设计生成能力,以及强化几何推理能力。
该模型作为通义家族在视觉生成领域的最新尝试,专门针对“图像编辑”场景进行了优化。不同于传统的文生图模型(Text-to-Image),该模型主要解决的是“在保持原图主体结构不变的前提下,对特定区域进行精准修改”这一行业难题,为开发者和设计师提供了更高效的 AI 辅助工具。
Qwen-Image-Edit-2511 的最大亮点在于其强大的指令遵循能力(Instruction Following)。用户无需掌握复杂的 Photoshop 图层技术,也不必手动绘制选区,只需输入类似“将画面中的猫换成狗”或“移除背景中的路人”等自然语言指令,模型即可自动理解意图并执行操作。
该模型通过深度融合视觉编码器与语言模型,能够精确识别图像中的语义对象,确保在修改目标物体的同时,最大限度地保留原图的光影、纹理及背景一致性。
Qwen-Image-Edit-2511 进一步改善人物一致性,保留主体的身份特征和视觉风格的情况下,能够基于输入的人像进行富有想象力的编辑。IT之家附上相关图片如下:
新模型进一步增强了多人合影场景中的一致性表现 —— 能够将两张独立的人物图像高保真地融合为一张协调的群像照片:
Qwen-Image-Edit-2511 将部分精选的热门 LoRA 直接集成到基础模型中,无需额外微调即可启用其效果。例如,光照增强 LoRA 下,用户可开箱即用地实现逼真的光照控制:
Qwen-Image-Edit-2511 引入了更强的几何推理能力,例如,可直接为设计或标注目的生成辅助构造线: