告别「边画边说」：LatentMorph 开启视觉生成隐式潜空间推理新范式

文章核心观点 - 香港科技大学团队提出了一种名为LatentMorph的全新框架，旨在解决现有文生图模型在生成过程中缺乏动态思考与自我修正能力的问题[2] - 该框架通过隐式潜空间推理，直接在连续的潜空间中完成“思考”与“修正”，无需将思考过程解码为文本或中间图像，从而显著提升了生成模型的性能、效率和与人类认知的对齐度[3] 背景与现有范式 - 在LatentMorph提出之前，赋予图像生成模型“System-2”推理能力的尝试主要分为两种范式：外部循环和内部循环[6] - 外部循环范式使用多模态大模型作为外部优化器来精炼提示词或迭代编辑图片[6] - 内部循环范式则在统一多模态模型内部交替进行理解与生成分支的交互[6] - 这些显式范式存在三大核心缺陷：信息损耗、计算冗余和认知失调[7] LatentMorph方法 - LatentMorph通过四个轻量化组件构建了一个闭环的“观察-决策-思考-引导”系统[10] - 视觉记忆凝结器负责将海量生成状态提炼为紧凑的短程和长程视觉记忆[12] - 强化学习驱动的推理调用器作为一个策略网络，实时评估多维信号，并仅在遇到瓶颈或歧义时才激活思考，以最大化推理效率[12] - 潜空间翻译器负责将推理产生的抽象连续向量转化为生成分支可理解的控制信号[13] - 潜空间整形器将控制信号转换为控制Token并直接注入生成分支的KV Cache中，通过修改注意力上下文来引导后续Token的预测，实现动态修正[14] 实验分析：性能提升 - LatentMorph在五个权威基准测试中与十种主流方法进行了对比[16] - 相比基座模型Janus-Pro，LatentMorph在GenEval上提升了16%，在T2I-CompBench上提升了25%[19][22] - 在处理复杂的“非空间属性”任务时，LatentMorph超过了领先的显式推理基线TwiG-RL达7.28%[22] - 在处理抽象知识和反物理直觉提示词时，LatentMorph展现了独特优势[23] 实验分析：效率与消耗 - 与显式推理范式相比，LatentMorph大幅削减了44%的推理延时与51%的Token消耗[3][26] - 其推理调用策略表现出“任务复杂度敏感”的模式，在简单提示词上干预少，在复杂抽象任务上增加调用频率[28] 实验分析：认知对齐 - LatentMorph实现了高达71.8%的人机认知对齐度[3][28] - 热力图分析证实，其潜空间推理能更好地激活图像中细微纹理和光影对应的关注区域[27] 结论与展望 - LatentMorph证明了推理增强型模型正从“显式说理”向“隐式直觉”发生范式转移[30] - 该框架成功将逻辑思考的深度与生成流程的效率统一在潜空间内，提升了模型对复杂、抽象指令的遵循能力[30] - 未来，这种潜空间推理框架有望拓展至视频生成、3D构建等更多高维多模态领域[31]