推理长度

搜索文档
斯坦福最新!大模型的幻觉分析:沉迷思考=真相消失?
自动驾驶之心· 2025-06-19 18:47
多模态推理模型的核心问题 - 推理能力增强会导致视觉注意力下降,产生更多幻觉,表现为过度依赖语言常识而忽略视觉证据 [3][5][14] - 推理链长度与幻觉率呈正相关,模型在长推理时对图像token关注度暴跌,转向指令词 [19][21][23] - 70亿参数模型比30亿参数模型表现更好,RH-AUC分数更高(0.63 vs 0.53),显示规模效应缓解幻觉 [34][39] 训练方法对比 - 纯强化学习(RL-only)模型比监督微调+强化学习(SFT+RL)模型RH-AUC更高(如Ocean-R1-7B 0.63 vs OpenVLThinker 0.54),因后者易陷入机械模仿 [34][35][40] - SFT+RL训练导致僵化推理路径,例如将"系鞋带动作"误判为"已完成",而RL-only模型更关注实时视觉细节 [11][35] - 数据质量优于数量,分阶段投喂专精数据(如Ocean-R1)比混合数据(R1-OneVision)效果更佳 [40][42] 评估体系创新 - RH-Bench基准包含1000道题(500推理+500感知),涵盖数学、视觉判断等任务,经人工审核确保严谨性 [30][32] - RH-AUC指标动态评估推理长度与准确率关系,通过曲线下面积量化平衡能力,解决传统静态指标局限 [24][31][33] - 任务类型决定最佳推理长度:数学题需400-600Token,视觉题需100-300Token,显示灵活策略必要性 [28][31] 注意力机制缺陷 - 推理模型视觉注意力热力图显示"散光"现象,关注区域分散且偏向指令词,而非推理模型则聚焦关键物体 [18][21] - 过度推理时图像token关注度下降50%以上,语言先验依赖度显著上升,导致视觉误判 [21][22][23] - 两种典型幻觉模式:视觉误识别型(漏看细节)和推理偏倚型(语言常识覆盖视觉证据) [13][14] 未来技术方向 - 需验证结论在LLaVA、Flamingo等架构的泛化性,当前实验仅基于Qwen2.5-VL backbone [43] - 潜在状态控制等动态长度调节技术可优化推理-感知平衡,但需结合任务类型定制策略 [24][27] - 训练数据因果性实验待开展,现有结论为观察性分析,未控制变量 [43][44]