Workflow
拯救P图废柴,阿里上新多模态模型Qwen-VLo!人人免费可玩
量子位·2025-06-28 12:42

阿里多模态模型Qwen-VLo发布 - 全新多模态模型Qwen-VLo在原有基础上全面升级,具备三大核心能力:增强的细节捕捉、单指令图像编辑、多语言支持[2][11] - 模型支持任意分辨率和长宽比的输入输出,突破传统固定格式限制[2] - 新增对现有信息的注释功能(如检测、分割等),示例中成功用红色Mask分割香蕉边缘[12] 核心功能演示 - 连续生成能力:像"连续剧"一样精准生成系列图片,示例展示购物篮装货场景[4][6][7] - 单指令编辑能力:成功将北极熊喝可乐替换为喝牛奶,保持背景和主体高度一致[20][22][23] - 多步骤任务处理:完成草图→上色→加字→编辑汉字的全流程,人物主体稳定[36][37][42] 技术实现特点 - 采用渐进式生成机制:从上到下逐步构建图像,过程中持续优化预测内容[52][56] - 生成效率提升:特别适合广告设计和漫画分镜等长文本图像任务[57][58] - 与GPT-4o差异:官方强调其渐进生成是真实技术实现而非视觉障眼法[50][52] 用户实测表现 - 现实风格处理:成功将照片中的鸟替换为鸽子,但未理解网络热梗"蒜鸟"[26][28][30][32] - 文本编辑能力:在保持背景稳定的前提下,准确修改图像中的中英文内容[44][45] - 创意应用场景:网友实现动漫角色一键上色、定制宣传看板、制作梗图等功能[59][60][62]