Workflow
ICML 2025 | 大模型能在信息不完备的情况下问出正确的问题吗?
机器之心·2025-07-24 12:08

大语言模型主动推理研究 核心观点 - 大语言模型在被动推理(如数学推理、代码生成)表现优异,但主动推理(信息不完备场景下的动态交互推理)能力存在显著短板 [1][2] - 主动推理要求模型通过多轮交互提问获取关键信息,其核心是"提出正确问题"而非"找到答案" [4][18] - 当前顶尖模型如GPT-4o在主动推理任务中准确率仅35%,且现有方法(SFT/DPO/ToT)提升有限 [28][29][30] 研究创新 理论框架 - 首次系统定义主动推理(AR)与被动推理(PR)的本质区别:PR基于完整信息直接求解,AR需通过交互补充缺失信息 [8][14][15] - 提出AR三大核心挑战:动态提问能力、信息检索效率、迭代推理质量 [15][18] 评估体系 - 开发AR-Bench基准测试,包含三类任务:情景谜题(逻辑发散)、数字猜谜(符号推理)、诊断对话(专业交互) [20][21][22] - 采用双维度评估:结果匹配度(答案准确性)和过程质量(关键问题覆盖率/F1-Score) [25] 实验结果 模型表现 - 模型普遍存在提问质量递减现象,后期问题有效性下降38% [38][45] - 典型错误模式:宽泛提问(占比42%)、时间线误解(23%)、未利用符号反馈(19%) [49][50][51] - 模型规模与表现正相关:Llama-3.1-70B比8B版本多提取27%有效信息 [36][43] 方法对比 - 基于搜索的方法(如ToT)在数字猜谜任务提升15%准确率,但在情景谜题中无效 [38] - 微调方法(SFT/DPO)导致部分任务性能下降12-18% [30] - 人类表现显著优于模型,在诊断对话任务中F1-Score高出41% [34][37] 未来方向 技术突破 - 开发高质量微调数据集(计划构建10万条AR样本) [56] - 强化学习适配(PPO/GRPO)与可靠验证器设计 [60] 场景拓展 - 医疗诊断场景的定制化代理开发 [60] - 多模态主动推理(机器人/游戏环境) [60] 注:所有数据引用自ICML 2025会议论文及AR-Bench基准测试结果 [11][20][25]