北大伯克利联手“拷问”大模型:最强Agent也才40分!新基准专治“不听话”的AI分析师
量子位·2025-06-10 13:16
北大邓小铁课题组 投稿 量子位 | 公众号 QbitAI 给大模型当老师,让它一步步按你的想法做数据分析,有多难? 结果是,连Claude-3.7和Gemini-2.5 Pro这样的顶尖选手,都开始"不听话"了。 在一个全新的测试基准中,它们面对多轮、不断演进的指令,最终的任务成功率最高仅有40%。 这项名为 IDA-Bench 的新基准,就是为了模拟真实世界中这种"边想边改"的分析场景而生。 它不再是给模型一道题,让它一口气算完;而是模拟一位真实的数据分析师,在对话中不断给出新指令,考察Agent在 多轮交互 中的真实 能力。 可以说,专治各种"自作主张"和"一意孤行"的AI。 值得一提的是,这项工作由一支星光熠熠的团队打造,汇集了 北京大学 与 加州大学伯克利分校 的 顶尖学者,其中不乏机器学习泰斗 Michael I. Jordan 教授,仿真科学领域专家 郑泽宇 (Zeyu Zheng) 副教授,以及ACM/IEEE Fellow 邓小铁 (Xiaotie Deng) 教授的身 影。 "不听话"的AI,问题出在哪? 目前,我们看到的很多大模型数据分析工具,比如OpenAI、Gemini和Claude的 ...