生成式AI作为新闻摘要工具的表现评估 - 一项为期一个月的实验显示,教授向七个AI聊天机器人询问魁北克每日最重要的五条新闻,共记录了839条回复 [1] - 德国DW分析团队评估指出,所有聊天机器人都能以清晰易读的风格提供答案,这容易让用户产生虚假的安全感或信任感,尤其是ChatGPT经常提供结构良好、看似全面的长篇回答,但事实错误和缺失的细微差别在深入挖掘时才会被发现 [2] - 22家欧洲公共广播机构的联合测试发现,Gemini和Grok 3超过一半的回答引用了虚假或失效的链接,在200个测试提示中,Grok 3有154个引用指向错误页面 [10] AI生成内容的事实准确性与来源问题 - 当被问及中国出口什么时,ChatGPT提供了详细的商品类别和具体数字,但所附的两个来源链接中根本找不到其提到的大部分数字,使得事实难以验证 [3] - 在询问关于马斯克使用纳粹礼的话题时,Gemini根据来源1tv.ge没有相关信息,便推断马斯克没有使用纳粹礼,这被评估员指出是逻辑错误,将缺乏报道错误地推断为否认的证据 [3][6] - 在教授的实验里,只有37%的AI回答提供了完整有效的网址,其他链接要么是404错误,要么指向网站首页,要么是编造的 [7] AI引用链接的误导性与装饰性问题 - 挪威NRK指出,Perplexity在回答问题时提供长长的网址列表却不真正引用它们,例如回答缅甸地震问题时提供了19个链接但正文只提到其中三个,回答北约问题时提供了9个链接但只引用了3个,这些“装饰性引用”旨在营造彻底研究的印象 [11][12] - 比利时VRT遇到一个离谱案例,Perplexity在回答关于墨西哥湾改名的问题时列出了九个VRT的新闻来源,但核查发现只有三个真正相关,其他来源内容毫不相干 [11] AI错误信息对新闻业信任的侵蚀效应 - BBC和Ipsos的调查显示,42%的人表示如果在AI新闻摘要里看到错误信息,他们会降低对原始新闻来源的信任 [15] - 当被问及特朗普是否在发动贸易战时,ChatGPT回答针对加拿大和墨西哥,而Perplexity回答针对欧盟,两者答案不同且都可能错误地声称来源是特定媒体,最终导致被引用的媒体声誉受损 [15] - 路透新闻研究所数据显示,目前7%的人将AI聊天机器人当作新闻来源,在25岁以下人群中这一比例是15%,同时只有24%的美国人在从AI获取新闻时觉得容易判断真假 [16]
我用 AI 看了一个月新闻,63% 回答有问题,一堆 404 和瞎扯
36氪·2026-02-09 16:02