11款AI测评实录:新闻总结全线翻车,深度思考的AI爱上“添油加醋”|AI幻觉捕手
21世纪经济报道·2025-04-17 13:39

行业核心发现 - 对六款国产大模型进行新闻事件总结测试,在总计55次回复中,完全正确的回复仅有4次,大部分回复(42次,占比76.3%)为真假参半 [1] - 在四类常见错误中,“错误总结”是最高频类型,涉及全部AI,占全部错误量的40%以上 [7] - 开启“深度思考”功能后,AI模型普遍更倾向于编造细节和数据,例如深度思考版豆包为车祸事件编造了车主逃逸、伤者烧伤面积等情节,通义千问编造了车主涉毒及事故比例数据 [23] - 国际测试Vectara HHEM指出,深度思考版DeepSeek的幻觉率为14.3%,显著高于其通用版的3.9% [23] 模型表现评估 - 综合来看,豆包的表现最为可靠,其次是Kimi,其他大模型之间没有明显差距 [2][5] - 豆包的相对可靠性可能源于其大量引用了经过核查、引用规范的抖音百科原文内容 [5] - 所有被测试的AI模型均出现过“错误总结”的问题 [7] - 在引用来源时,Kimi有回答直接输出了《财新》付费部分的报道原文,疑似突破了付费墙或存在版权合作 [14] - 在答案提示方面,只有DeepSeek在每个回答下高亮了“内容仅供参考,请谨慎甄别”的提醒,其他模型未见类似提示 [5] 错误类型与特征 - 第一类错误为“无中生有”,即AI凭空捏造对话、故事或数据 [10] - 第二类错误为“错误总结”,包括误读原文、引用本身有误的信息,或在多种说法中片面摘取其一 [10] - 第三、四类错误属于引用错误,具体包括“移花接木”(内容与引用链接不符)和“无法核查”(链接失效或打不开) [10] - “移花接木”问题在通义千问和DeepSeek中相对突出,例如DeepSeek将《南方周末》的文章错误标注为“搜狐新闻分析” [14] - AI常犯的低级错误包括颠倒事实(如将“驾驶员非车主本人”总结为“车主本人驾驶”)和混淆专业概念(如将地震类型总结错误) [13] - AI倾向于将推测当作事实输出,很少使用“可能”、“推测”等限定词,也常省略信源主体,导致原意变味 [13] 信息源引用问题 - AI难以引用到正确的信息,是其共同软肋 [14] - 在信息更新迅速的事件中(如缅甸地震伤亡人数),多数AI无法引用到最新数据,例如仅文心一言和通义千问引用了缅甸官方4月12日公布的3689人死亡、5020人受伤的数据,仅豆包引用了中国公民死亡8人的最新数据 [15] - AI存在“时间错乱”问题,常将国内自媒体转载内容的滞后发布时间,错误当作事件实际发生时间,导致信息严重滞后,例如DeepSeek曾将4月5日自媒体帖子中提到的144人死亡,总结为缅甸官方当日数据,而当日实际累积死亡人数已达3354人 [16] - AI对信息源存在明显的“引用偏好”,倾向于引用那些篇幅长、面面俱到、结构清晰的“伪百科”型内容,这些内容往往不来自机构媒体或政府账号,阅读量也很低 [2][16][17] - 当事件缺乏专业媒体充分报道时,AI更容易借助各种质量不高的自媒体内容填充细节 [17] - 部分被引用的“伪百科”内容本身即由AI生成,形成了“垃圾进,垃圾出”的循环,例如DeepSeek在制油罐车事件中引用的链接原文底部标明了“内容由AI生成” [17] 深度思考功能影响 - 深度思考功能旨在通过展现思维链条来增强AI的推理能力 [18] - 在某些信息提炼场景中,深度思考功能能使回答更精准,例如DeepSeek深度思考版更准确地处理了采访信源,避免了通用版的错误简化 [23] - 然而,开启深度思考后,几乎所有AI都更爱编造内容,尤其是在细节和数据上 [23] - 分析认为,AI的思维链越长,越有可能为了填满推理过程而进行编造 [23][25] - 专家指出,推理能力与AI幻觉之间并非简单的线性关系,DeepSeek幻觉加重可能与其研发重点偏向高创造力的“文科思维链”,而在需要高度真实性的任务上出现副作用有关 [25]

11款AI测评实录:新闻总结全线翻车,深度思考的AI爱上“添油加醋”|AI幻觉捕手 - Reportify