拯救P图废柴，阿里上新多模态模型Qwen-VLo！人人免费可玩

阿里多模态模型Qwen-VLo发布 - 全新多模态模型Qwen-VLo在原有基础上全面升级，具备三大核心能力：增强的细节捕捉、单指令图像编辑、多语言支持[2][11] - 模型支持任意分辨率和长宽比的输入输出，突破传统固定格式限制[2] - 新增对现有信息的注释功能（如检测、分割等），示例中成功用红色Mask分割香蕉边缘[12] 核心功能演示 - 连续生成能力：像"连续剧"一样精准生成系列图片，示例展示购物篮装货场景[4][6][7] - 单指令编辑能力：成功将北极熊喝可乐替换为喝牛奶，保持背景和主体高度一致[20][22][23] - 多步骤任务处理：完成草图→上色→加字→编辑汉字的全流程，人物主体稳定[36][37][42] 技术实现特点 - 采用渐进式生成机制：从上到下逐步构建图像，过程中持续优化预测内容[52][56] - 生成效率提升：特别适合广告设计和漫画分镜等长文本图像任务[57][58] - 与GPT-4o差异：官方强调其渐进生成是真实技术实现而非视觉障眼法[50][52] 用户实测表现 - 现实风格处理：成功将照片中的鸟替换为鸽子，但未理解网络热梗"蒜鸟"[26][28][30][32] - 文本编辑能力：在保持背景稳定的前提下，准确修改图像中的中英文内容[44][45] - 创意应用场景：网友实现动漫角色一键上色、定制宣传看板、制作梗图等功能[59][60][62]