多模态大模型反思推理能力瓶颈 - 当前多模态大模型倾向于给出一步到位的答案,缺乏反复试错和回溯能力[1] - 这种长链反思性推理能力的缺失是阻碍AI从知识容器迈向问题解决大师的关键瓶颈[1] MM-HELIX基准测试体系 - 团队构建了包含42种横跨算法、图论、谜题和策略游戏的超高难度任务基准测试[4][5] - 基准测试根据题目复杂度区分五层难度,最终收集了1260道题目进行细粒度评估[5] - 测试结果显示顶尖闭源和开源模型准确率惨淡,仅GPT-5超过50分,不具备反思能力的模型只有10分左右准确率[6][7] - 模型面对多模态输入时准确率相比纯文本输入大幅下降,证明教会多模态大模型反思刻不容缓[7] MM-HELIX-100K数据集创新 - 采用步骤启发式响应生成流程,通过提供解题关键步骤来生成解题过程[7] - 相比直接让模型解题,推理时间减少90%,同时大幅降低了解题过程中过度反思带来的冗余度[7] - 打造了包含10万个高质量样本的反思推理秘籍,包含自我纠错和灵光一闪的数据[7] AHPO自适应混合策略优化算法 - 创新提出自适应混合策略优化算法,解决了直接微调方法导致的灾难性遗忘问题[11][12] - 算法采用动态教学机制,在模型新手时引入专家数据进行强力指导,熟练后减少专家干预鼓励自由探索[13][17] - 在MM-HELIX基准测试上使准确率飙升18.6%,一举超越体量远大于自身的SOTA模型[14][18] - 反思能力展现出强大泛化性,在多个通用数学和逻辑推理任务上平均性能提升5.7%[14][18] 技术成果开源 - MM-HELIX Benchmark、MM-HELIX 100K、MM-HELIX Sandbox Environment目前均已开源[16]
教多模态大模型学会“反思”和“复盘”,上交&上海AI Lab重磅发布MM-HELIX&AHPO,破解多模态复杂推理难题
量子位·2025-10-19 12:10