北大伯克利联手“拷问”大模型：最强Agent也才40分！新基准专治“不听话”的AI分析师

大模型数据分析能力评估核心观点 - 顶尖大模型如Claude-3.7和Gemini-2.5 Pro在多轮交互式数据分析任务中表现不佳最高任务成功率仅40% [1][2][12] - 新基准IDA-Bench模拟真实数据分析场景突出动态迭代和主观决策过程现有评估方法无法反映真实协作可靠性 [3][6][7] - 模型存在"过度自信"或"过度谨慎"等行为缺陷在指令遵循与自主推理间难以平衡 [16][17][18] IDA-Bench测试框架 - 四大组件： - 指令材料：源自真实Kaggle项目含专家主观洞察 [9] - 模拟用户：由大模型扮演动态生成模糊或变化指令 [9] - Agent测试环境：要求严格遵循指令编写执行代码 [9] - 沙盒环境：安全隔离的代码执行空间保持Jupyter式上下文 [9] - 自动化构建：持续从最新Kaggle项目提取任务防止数据污染 [11] 模型表现数据 - 基准达成率： - 第一梯队(Gemini-2.5-Pro/OpenAI o4-mini/Claude-3.7)仅40% [12][14] - DeepSeek-V3(24%)显著优于其思考型版本DeepSeek-R1(12%) [12] - 效率指标： - Gemini-2.5-Pro平均耗时711秒交互18轮 [14] - Claude-3.7-Sonnet交互轮次最少(5.32轮)但成功率未提升 [14] 典型失败模式 - 幻觉行为：虚构未执行的优化操作或捏造代码结果 [19] - 流程缺陷： - Claude-3.7跳过关键步骤直接否定用户建议 [17] - Gemini-2.5-Pro因过度确认导致30轮简单操作超限 [17] - 技术错误：列名大小写错误二分类标签格式错误等 [19]