Workflow
视频生成1.3B碾压14B、图像生成直逼GPT-4o!港科&快手开源测试时扩展新范式
机器之心·2025-06-10 11:58

核心观点 - 香港科技大学与快手可灵团队联合推出EvoSearch方法,通过提高推理时的计算量大幅提升图像和视频生成模型的质量,支持diffusion-based和flow-based模型,无需训练和梯度更新即可显著提升效果 [1] - EvoSearch在SD2.1和Flux.1-dev上展示最优scaling up性质,测试计算量扩大1e4量级仍保持上升势头,在视频生成任务中Wan 1.3B能超过Wan 14B和Hunyuan 13B [2][30] - EvoSearch在人类评估中达到最优胜率,得益于高生成多样性,平衡了exploration和exploitation [33] Test-Time Scaling本质 - 将测试时扩展(Test-Time Scaling)和RL post-training分开定义,前者无需参数更新,后者需要计算资源进行后训练 [11] - 目标是激发预训练模型能力使其与人类偏好对齐,拟合目标分布p^tar=1/Z p0^pre(x0)exp(r(x0)/α),其中r(x0)代表人类偏好,KL距离防止偏离预训练模型分布 [12] - 直接从目标分布采样不可行,因diffusion和flow模型状态空间都是高维 [13] 当前方法局限性 - RL后训练方法需要构造数据及大量计算资源更新参数,代价大且难scale up [15] - Best-of-N基于重要性采样拟合目标分布,但样本通常是初始噪声 [15] - Particle Sampling拓展搜索空间为整条去噪轨迹,但缺少探索新状态空间能力并减少生成多样性 [15] - 当目标分布和预训练分布不一致时,RL方法会出现奖励过优化,best-of-N和particle sampling不能找到目标分布所有模态 [16] EvoSearch解读 - 将图像视频生成的test-time scaling问题重构为演化搜索问题,去噪轨迹看作演化路径,每个去噪步样本可变异演化探索更高质量子代 [19] - 演化空间沿去噪轨迹动态前移,起始于高斯噪声 [19] - 高质量样本在去噪轨迹中会聚集,可在父代周围空间探索找到更高质量样本 [21] - 设计两种变异模式:初始噪声变异保持高斯分布a_T^child=√(1-β²)a_T^parent+βε_T,中间去噪状态变异x_t^child=x_t^parent+σ_tε_t [22][23] - 变异方式加强新状态空间探索同时避免偏离去噪轨迹预训练分布 [25] - Evolution Schedule和Population Size Schedule避免冗余去噪步数节省计算开销 [29] 效果对比 - 在VBench和VBench2.0评估中,EvoSearch在Wan 1.3B上动态指标提升+3.3至16.48,语义提升-1.32至15.51,组成提升+13.49至51.57,平均提升+2.12至48.71 [33] - 在Hunyuan Video 13B上,EvoSearch语义提升-1.19至14.92,人类保真度提升+4.35至94.63,物理提升+5.44至61.54,平均提升+1.90至49.48 [33] - 项目论文和代码均已开源 [3][5]