感知错误率降低30.5%：隐式感知损失让模型主动“睁大眼睛”

多模态推理算法PAPO的核心创新 - 提出专注于多模态推理的强化学习算法PAPO，通过隐式感知损失设计解决感知与推理脱节问题 [1][3] - 系统错误分析显示67%多模态推理错误源于视觉感知问题，而非逻辑推理能力 [6][7][9] - 在几何推理任务中，PAPO准确识别关键视觉特征（如30度角对应边），传统GRPO则关联错误 [14][15] 技术实现细节 - 创新隐式感知损失函数：要求模型在原始/损坏图像上输出显著差异分布 [18] - 采用KL散度最大化和感知信息增益比设计，目标函数J_PAPO=J_GRPO+γ·KL_prcp [19][20][21] - 随机遮盖补丁策略优于语义感知遮盖，遮盖比例0.6-0.8时效果最佳 [24][38] 性能提升表现 - 8个基准测试显示整体平均提升4.4%，高视觉依赖任务提升8.0%，感知错误减少30.5% [26] - 3B模型在LogicVista任务从38.14%提升至39.84%，7B模型在Counting任务从73.94%跃升至82.38% [26] - 训练动态更优：25步即显现提升，避免奖励不稳定问题，改进效果持续增强 [28][29] 技术优化与挑战 - 双重熵损失设计有效防止KL_prcp Hacking现象（γ>0.02时易发生崩溃） [45][46][47] - 与移除ReferenceKL约束的组合实现协同效应，7B模型在高视觉任务再提升7.96% [33][34] - 视觉依赖性分级验证：高依赖任务改进最显著（近8%），低依赖任务仍保持稳定提升 [53][54] 实际应用案例 - 几何计算：PAPO准确识别三角形短边关系（GRPO错误关联60度角边） [14][57] - 物体计数：PAPO正确区分并统计多类物体（GRPO感知错误） [8][64] - 多图推理：PAPO精准识别子图特征并完成逻辑推导（GRPO视觉推理错误） [63] 资源开放 - 模型、数据及代码已在GitHub、HuggingFace等平台开源 [5][65]