Self-E框架
搜索文档
解锁任意步数文生图,港大&Adobe全新Self-E框架学会自我评估
机器之心· 2026-01-15 11:52
文章核心观点 - 香港大学与Adobe Research联合发布了一种名为Self-E的新型文本到图像生成框架,其核心创新在于将训练范式从传统的“轨迹匹配”转变为“落点评估”,从而实现了无需依赖预训练教师模型进行知识蒸馏,即可从零开始训练出支持任意推理步数的模型 [2][7] - 该模型能够在极少的推理步数下生成语义清晰、结构稳定的图像,同时在常规50步设置下保持顶级质量,并且生成质量随步数增加呈现单调提升,实现了“一个模型,适应任意计算预算”的目标 [2][23][28] 技术范式转变 - 传统扩散或流匹配模型学习的是“局部向量场”,即在给定噪声状态下预测下一步方向,这种“轨迹匹配”方法在大步长推理时误差会被放大,导致生成质量下降 [7] - Self-E进行了根本性的范式改变,将训练重心从“每一步走得对不对”转向“落点好不好”,即“落点评估”,通过评估生成结果并给出纠偏方向来提供动态反馈信号 [7][11] 核心训练机制 - Self-E采用两条互补的训练信号:一是从真实数据中学习分布的局部结构,二是通过“自我评估”学习分布层面的正确性 [12][13] - 在“自我评估学习”阶段,模型先进行一次“长距离跳跃”生成一个样本,然后在落点处利用自身当前学到的局部估计产生一个“方向信号”,指导样本如何移动才能进入更高质量、更符合文本的分布区域,该评估信号不来自外部教师,而是来自模型自身的动态估计 [17] - 训练最终通过一个统一的损失函数实现,该函数结合了从数据学习的目标和自我评估的目标 [20][21] 性能表现 - 在GenEval基准测试中,Self-E对比其他方法取得了全面领先,并且性能随步数增加呈现单调提升 [24][25] - 在少步推理区间优势尤其显著,例如在2步设置下,Self-E的得分达到0.7531,相比当时最佳对比方法的0.6338,提升约为+0.12,而多种传统模型在2步下几乎无法生成可用结果 [25] 宏观意义与工程价值 - 从宏观视角看,Self-E将训练过程组织成一个类似强化学习的“环境-智能体”闭环,其内部的评估器角色接近“可查询的学习型奖励模型”,为将强化学习更系统地引入视觉生成训练提供了新的接口 [26][27] - 该框架的工程意义在于,同一个模型检查点可以根据不同场景动态选择推理步数,例如在交互式场景使用1-4步追求即时反馈,在高质量离线渲染时使用50步追求细节上限,同时训练侧绕开了复杂的教师蒸馏流程 [28]