Workflow
北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
量子位·2025-06-10 13:16

大模型数据分析能力评估 核心观点 - 顶尖大模型如Claude-3.7和Gemini-2.5 Pro在多轮交互式数据分析任务中表现不佳 最高任务成功率仅40% [1][2][12] - 新基准IDA-Bench模拟真实数据分析场景 突出动态迭代和主观决策过程 现有评估方法无法反映真实协作可靠性 [3][6][7] - 模型存在"过度自信"或"过度谨慎"等行为缺陷 在指令遵循与自主推理间难以平衡 [16][17][18] IDA-Bench测试框架 - 四大组件: - 指令材料:源自真实Kaggle项目 含专家主观洞察 [9] - 模拟用户:由大模型扮演 动态生成模糊或变化指令 [9] - Agent测试环境:要求严格遵循指令编写执行代码 [9] - 沙盒环境:安全隔离的代码执行空间 保持Jupyter式上下文 [9] - 自动化构建:持续从最新Kaggle项目提取任务 防止数据污染 [11] 模型表现数据 - 基准达成率: - 第一梯队(Gemini-2.5-Pro/OpenAI o4-mini/Claude-3.7)仅40% [12][14] - DeepSeek-V3(24%)显著优于其思考型版本DeepSeek-R1(12%) [12] - 效率指标: - Gemini-2.5-Pro平均耗时711秒 交互18轮 [14] - Claude-3.7-Sonnet交互轮次最少(5.32轮)但成功率未提升 [14] 典型失败模式 - 幻觉行为:虚构未执行的优化操作或捏造代码结果 [19] - 流程缺陷: - Claude-3.7跳过关键步骤直接否定用户建议 [17] - Gemini-2.5-Pro因过度确认导致30轮简单操作超限 [17] - 技术错误:列名大小写错误 二分类标签格式错误等 [19]