扩散模型计数幻觉
搜索文档
AI画手总是六根手指?阿大/美团/上交首次系统量化扩散模型计数幻觉
量子位· 2025-10-18 15:33
文章核心观点 - 研究团队首次对扩散模型中的“计数幻觉”进行了系统性研究,构建了首个量化评测基准CountHalluSet,揭示了采样条件与幻觉率的复杂关系,并提出了能显著减少幻觉的联合扩散模型(JDM)[2][3][5] 研究背景与问题定义 - 扩散概率模型(DPMs)在图像生成中普遍存在产生与现实知识相悖的“幻觉样本”的问题,例如生成六根手指的手掌[1] - 社区缺乏系统性量化这类事实性错误的方法,阻碍了高可信度生成模型的研发[2] - 研究聚焦于一类特殊的幻觉——“计数幻觉”,即生成图像违反了数据集中关于物体数量的既定事实[10] 评测基准:CountHalluSet - 研究团队构建了包含三个数据集的CountHalluSet套件,可数物体的形态复杂性逐级递增[7] - **ToyShape**:包含简单的几何图形(三角形、正方形、五边形)[8] - **SimObject**:包含照片级逼真度的日常三维物体(杯子、苹果、时钟)[8] - **RealHand**:包含真实的、姿态各异的人手图像,每张图像必须严格包含五根手指[8][10] - 为量化评测,团队为ToyShape/SimObject构建了超过400,000个样本的数据集以微调ResNet-50计数模型,并为RealHand在超过2千张图像上微调YOLO-12模型来检测指尖[12][13] 核心实验发现 发现一:采样步数对幻觉的影响呈现“合成–真实”分化趋势 - 在合成数据集(ToyShape、SimObject)上,增加采样步数能有效降低计数幻觉率(CHR)[19] - 在真实数据集(RealHand)中,增加采样步数反而提升了计数幻觉率[19] - 例如,使用DPM-Solver-1,采样步数从25步增至100步时,RealHand的CHR从12.95%升至14.55%[18][19] 发现二:更高阶的ODE求解器可降低总体失败率,却提升计数幻觉率 - DPM-Solver-2在相同步数下生成质量一般优于DPM-Solver-1,并显著降低了RealHand的总体失败率(TFR)[20] - 但DPM-Solver-2却增加了计数幻觉率(CHR)[20] - 例如,在25步时,DPM-Solver-2的CHR为14.48%,高于DPM-Solver-1的12.95%[18][20] 发现三:祖先采样(DDPM)在幻觉抑制上表现最优 - 在所有对比中,DDPM(采样1000步)始终实现最低的计数幻觉率、非计数类失败率(NCFR)和总体失败率(TFR)[22] - 在RealHand上,DDPM的CHR为10.75%,NCFR为2.39%,TFR为13.14%,均显著低于其他求解器[18][22] 发现四:更合理的初始噪声可显著降低幻觉率 - 相较于标准高斯噪声(Normal),使用“扩散”噪声(Ground-truth初始噪声)能同时降低CHR、NCFR和TFR[24] - 例如,对于DPM-Solver-1在25步时,使用扩散噪声的CHR为12.71%,低于标准噪声的12.95%[18][24] 发现五:对象形态越复杂,计数幻觉越显著 - 随着对象形态从ToyShape、SimObject到RealHand逐渐复杂,计数幻觉率持续上升[26] - 例如,在DPM-Solver-1(25步)下,ToyShape的CHR为2.43%,SimObject为9.27%,而RealHand高达12.95%[18][26] 指标相关性分析 发现一:计数幻觉与FID之间的相关性并非固有 - 在SimObject数据集中,计数幻觉率(CHR)与FID呈显著正相关(Pearson = 0.8762)[30] - 在RealHand中却出现强负相关(Pearson = -0.9134)[30] - 当将DDPM结果纳入分析时,这种相关性显著减弱[31] 发现二:非计数类失败率与FID之间的相关性则稳定且显著 - 非计数失败率(NCFR)与总体失败率(TFR)在各条件下均与FID高度正相关(Pearson/Spearman > 0.94,p < 0.001)[32] - 这表明FID虽能衡量视觉质量,却不能代表模型的事实可靠性[32] 解决方案:联合扩散模型(JDM) - 研究团队提出了联合扩散模型(JDM),在训练时将原始图像和其对应的分割掩码在通道维度上进行拼接[33] - 这使得模型在共享的潜在空间中同时学习视觉表征与结构化的事实约束[33] - 实验表明,JDM能显著减少复杂真实图像中的计数幻觉和其他非计数类失败问题[5] - 在对比实验中,JDM在RealHand数据集上的CHR和NCFR均大幅低于基线模型LDM。例如,在某个配置下,JDM的CHR为2.94%,而LDM为18.06%[6] 研究意义与未来展望 - 该研究首次将扩散模型中模糊的“幻觉”问题,转化为一个可定义、可量化、可系统性分析的“计数幻觉”问题[36] - 研究结果挑战了“更多的采样步数、更高阶的求解器总能带来更好结果”以及“完全依赖FID评判模型事实准确性”的普遍认知[36] - 为社区提供了全新的评测基准(CountHalluSet)和评估视角,推动行业从关注“生成得美不美”转向同时关注“生成得对不对”[36] - 未来工作可将量化分析扩展到更复杂的幻觉类型,如不合逻辑的空间关系、违反物理规律的现象等[37] - 可探索将更抽象复杂的知识(如场景图、物理规则)融入扩散过程,发展“事实约束下的生成”新范式[37] - 最终目标是将生成模型从一个“创意工具”转变为一个可靠的“世界模型”,应用于科学模拟、工程设计等对准确性要求高的关键领域[37]