我用 AI 看了一个月新闻，63% 回答有问题，一堆 404 和瞎扯

生成式AI作为新闻摘要工具的表现评估 - 一项为期一个月的实验显示，教授向七个AI聊天机器人询问魁北克每日最重要的五条新闻，共记录了839条回复 [1] - 德国DW分析团队评估指出，所有聊天机器人都能以清晰易读的风格提供答案，这容易让用户产生虚假的安全感或信任感，尤其是ChatGPT经常提供结构良好、看似全面的长篇回答，但事实错误和缺失的细微差别在深入挖掘时才会被发现 [2] - 22家欧洲公共广播机构的联合测试发现，Gemini和Grok 3超过一半的回答引用了虚假或失效的链接，在200个测试提示中，Grok 3有154个引用指向错误页面 [10] AI生成内容的事实准确性与来源问题 - 当被问及中国出口什么时，ChatGPT提供了详细的商品类别和具体数字，但所附的两个来源链接中根本找不到其提到的大部分数字，使得事实难以验证 [3] - 在询问关于马斯克使用纳粹礼的话题时，Gemini根据来源1tv.ge没有相关信息，便推断马斯克没有使用纳粹礼，这被评估员指出是逻辑错误，将缺乏报道错误地推断为否认的证据 [3][6] - 在教授的实验里，只有37%的AI回答提供了完整有效的网址，其他链接要么是404错误，要么指向网站首页，要么是编造的 [7] AI引用链接的误导性与装饰性问题 - 挪威NRK指出，Perplexity在回答问题时提供长长的网址列表却不真正引用它们，例如回答缅甸地震问题时提供了19个链接但正文只提到其中三个，回答北约问题时提供了9个链接但只引用了3个，这些“装饰性引用”旨在营造彻底研究的印象 [11][12] - 比利时VRT遇到一个离谱案例，Perplexity在回答关于墨西哥湾改名的问题时列出了九个VRT的新闻来源，但核查发现只有三个真正相关，其他来源内容毫不相干 [11] AI错误信息对新闻业信任的侵蚀效应 - BBC和Ipsos的调查显示，42%的人表示如果在AI新闻摘要里看到错误信息，他们会降低对原始新闻来源的信任 [15] - 当被问及特朗普是否在发动贸易战时，ChatGPT回答针对加拿大和墨西哥，而Perplexity回答针对欧盟，两者答案不同且都可能错误地声称来源是特定媒体，最终导致被引用的媒体声誉受损 [15] - 路透新闻研究所数据显示，目前7%的人将AI聊天机器人当作新闻来源，在25岁以下人群中这一比例是15%，同时只有24%的美国人在从AI获取新闻时觉得容易判断真假 [16]