11款AI测评实录：新闻总结全线翻车，深度思考的AI爱上“添油加醋”｜AI幻觉捕手

行业核心发现 - 对六款国产大模型进行新闻事件总结测试，在总计55次回复中，完全正确的回复仅有4次，大部分回复（42次，占比76.3%）为真假参半 [1] - 在四类常见错误中，“错误总结”是最高频类型，涉及全部AI，占全部错误量的40%以上 [7] - 开启“深度思考”功能后，AI模型普遍更倾向于编造细节和数据，例如深度思考版豆包为车祸事件编造了车主逃逸、伤者烧伤面积等情节，通义千问编造了车主涉毒及事故比例数据 [23] - 国际测试Vectara HHEM指出，深度思考版DeepSeek的幻觉率为14.3%，显著高于其通用版的3.9% [23] 模型表现评估 - 综合来看，豆包的表现最为可靠，其次是Kimi，其他大模型之间没有明显差距 [2][5] - 豆包的相对可靠性可能源于其大量引用了经过核查、引用规范的抖音百科原文内容 [5] - 所有被测试的AI模型均出现过“错误总结”的问题 [7] - 在引用来源时，Kimi有回答直接输出了《财新》付费部分的报道原文，疑似突破了付费墙或存在版权合作 [14] - 在答案提示方面，只有DeepSeek在每个回答下高亮了“内容仅供参考，请谨慎甄别”的提醒，其他模型未见类似提示 [5] 错误类型与特征 - 第一类错误为“无中生有”，即AI凭空捏造对话、故事或数据 [10] - 第二类错误为“错误总结”，包括误读原文、引用本身有误的信息，或在多种说法中片面摘取其一 [10] - 第三、四类错误属于引用错误，具体包括“移花接木”（内容与引用链接不符）和“无法核查”（链接失效或打不开） [10] - “移花接木”问题在通义千问和DeepSeek中相对突出，例如DeepSeek将《南方周末》的文章错误标注为“搜狐新闻分析” [14] - AI常犯的低级错误包括颠倒事实（如将“驾驶员非车主本人”总结为“车主本人驾驶”）和混淆专业概念（如将地震类型总结错误） [13] - AI倾向于将推测当作事实输出，很少使用“可能”、“推测”等限定词，也常省略信源主体，导致原意变味 [13] 信息源引用问题 - AI难以引用到正确的信息，是其共同软肋 [14] - 在信息更新迅速的事件中（如缅甸地震伤亡人数），多数AI无法引用到最新数据，例如仅文心一言和通义千问引用了缅甸官方4月12日公布的3689人死亡、5020人受伤的数据，仅豆包引用了中国公民死亡8人的最新数据 [15] - AI存在“时间错乱”问题，常将国内自媒体转载内容的滞后发布时间，错误当作事件实际发生时间，导致信息严重滞后，例如DeepSeek曾将4月5日自媒体帖子中提到的144人死亡，总结为缅甸官方当日数据，而当日实际累积死亡人数已达3354人 [16] - AI对信息源存在明显的“引用偏好”，倾向于引用那些篇幅长、面面俱到、结构清晰的“伪百科”型内容，这些内容往往不来自机构媒体或政府账号，阅读量也很低 [2][16][17] - 当事件缺乏专业媒体充分报道时，AI更容易借助各种质量不高的自媒体内容填充细节 [17] - 部分被引用的“伪百科”内容本身即由AI生成，形成了“垃圾进，垃圾出”的循环，例如DeepSeek在制油罐车事件中引用的链接原文底部标明了“内容由AI生成” [17] 深度思考功能影响 - 深度思考功能旨在通过展现思维链条来增强AI的推理能力 [18] - 在某些信息提炼场景中，深度思考功能能使回答更精准，例如DeepSeek深度思考版更准确地处理了采访信源，避免了通用版的错误简化 [23] - 然而，开启深度思考后，几乎所有AI都更爱编造内容，尤其是在细节和数据上 [23] - 分析认为，AI的思维链越长，越有可能为了填满推理过程而进行编造 [23][25] - 专家指出，推理能力与AI幻觉之间并非简单的线性关系，DeepSeek幻觉加重可能与其研发重点偏向高创造力的“文科思维链”，而在需要高度真实性的任务上出现副作用有关 [25]