Workflow
PromptEcho
icon
搜索文档
阿里开源PromptEcho:用冻结多模态大模型为文生图训练提供高质量Reward
机器之心· 2026-05-06 12:10
文章核心观点 - 阿里巴巴研究团队提出了一种名为PromptEcho的创新方法,用于优化文生图模型的指令遵循能力,该方法无需标注数据和训练奖励模型,仅通过冻结的视觉语言模型的一次前向推理即可获得高质量的奖励信号 [2][3][6] - PromptEcho的核心机制是利用VLM的预训练损失函数,通过计算VLM在看到生成图像后“复述”出原始提示词的对数似然值作为奖励,该方法被证明比传统的奖励模型或让VLM直接生成评分的方法更有效、更稳定,并具备良好的泛化能力 [7][9][12][18][22] - 实验表明,PromptEcho能够显著提升前沿文生图模型在密集描述和公开基准测试上的性能,并且其效果随VLM模型规模扩大而提升,同时该方法被验证为一种通用范式,可迁移至如电商海报文字渲染等其他图像生成任务 [14][17][19][20][23][24] 核心方法:「PromptEcho」 - 方法直觉:如果生成图像正确遵循了提示词,VLM在看到图像后就能以高概率逐词元复述出原始提示,这个复述的对数似然即为奖励信号;反之,奖励会降低 [7] - 具体输入与计算:方法需要三个输入:生成图像、固定的引导查询指令(如“请详细描述这张图片”)以及原始提示词;将图像和查询输入冻结的VLM,在教师强制模式下计算VLM对原始提示词每个词元的预测概率,最终的奖励是这些对数概率的平均值 [8] - 方法优势:该方法与VLM预训练的损失函数完全一致,直接复用了VLM在海量图文数据预训练中习得的图文对齐知识,因此高效且无需额外训练 [9] 实验设计与结果 - **训练数据构建**:研究团队收集了约10万张高质量图片,并使用Qwen3-VL-32B为每张图片生成约200–400词的详细描述,构成了用于强化学习训练的提示词集合 [14] - **DenseAlignBench测试**:在同源数据上构建了包含2000条提示词的测试集,使用PromptEcho(基于Qwen3-VL-32B)优化后,模型在该测试集上取得了对前沿基线模型的大幅改进 [15][17] - **公开基准测试泛化能力**:在多个公开基准测试上,经过PromptEcho优化的模型均取得一致提升。例如,Z-Image模型在GenEval上从0.75提升至0.82,在TIIF Bench-S上从84.91提升至88.50;QwenImage-2512在GenEval上从0.74提升至0.79,在TIFBench-L上从83.25提升至86.46 [19] - **奖励VLM规模效应**:使用更大规模的VLM作为奖励模型效果更好。使用Qwen3-VL-32B时,Z-Image在DenseAlignBench上的净胜率提升+26.8个百分点,GenEval得分提升至0.82;而使用Qwen3-VL-8B时,净胜率提升为+18.3个百分点,GenEval得分为0.77 [20] - **与InferScore对比**:同样基于Qwen3-VL-32B,PromptEcho使Z-Image净胜率提升+26.8个百分点,而让VLM自回归生成离散评分的InferScore方法净胜率反而下降-3.3个百分点,证明了通过预训练损失计算连续对数似然值的优越性 [21][22] 通用性验证 - **任务迁移**:研究团队将PromptEcho的核心机制迁移至电商海报文字渲染任务,仅需调整引导查询指令(改为结构化OCR识别提示)和标签格式(改为JSON格式的结构化文字标签),而核心计算不变 [23][27] - **效果提升**:经过PromptEcho强化学习优化后,海报生成模型在5000条测试样本上的全图文字正确率从68%提升至75%(提升+7个百分点),证明了该范式的通用性 [24] 总结与影响 - PromptEcho揭示了一个深刻洞察:VLM的预训练损失函数本身就是一个高质量的图文对齐奖励信号,这为优化生成模型开辟了一条无需标注和训练专用奖励模型的全新路径 [37] - 随着开源社区VLM模型的持续改进,PromptEcho所能获得的奖励信号质量及其优化效果的上限也将随之不断提高 [20][37] - 研究团队已开源相关代码、模型权重及DenseAlignBench测试集,以促进社区的进一步研究 [5][37]