研究核心发现 - 一项针对主流AI聊天机器人关于新闻与时事内容准确性的大规模独立评估发现,在回答关于中期选举的问题时,有90%的答案存在事实错误、偏见或引用了外国官方媒体[1] - 该研究由初创公司Forum AI进行,评估了OpenAI的ChatGPT、Anthropic的Claude、Google的Gemini和xAI的Grok四款模型,共对3,136个问题生成了12,542条回答,并由专家小组进行判断[4][5] AI模型在信息来源辨别上的缺陷 - 聊天机器人难以区分合法新闻媒体与宣传机构,例如中国官媒《环球时报》,在所有回答中有15%至少引用了一家官方媒体来源[2] - 在外交政策相关问题上,这一问题更为严重:ChatGPT的回答中有51%引用了至少一家官方媒体,Grok为44%,所有聊天机器人在外交政策提示上的总体引用率为35%[3] - 被引用的信息常来自对美国有敌意的政府控制的媒体,包括中国的新华社、环球时报、CGTN、中国日报,以及俄罗斯和伊朗的媒体[4] AI模型的事实准确性表现 - 在所有回答中,约30%包含至少一处事实错误,包括错误日期、政策细节或不当归因[6] - 在事实准确性排名中,OpenAI的ChatGPT错误率最低,为9%,其次是Gemini(25%)、Claude(41%)和Grok(43%)[6] - 研究列举了具体错误案例:例如Gemini称阿肯色州ACA保费在2026年将上涨65%至67%,而实际批准的加权平均涨幅约为22%;Grok在关于美伊局势的回答中称伊朗海军、空军或先进防空系统已无有效作战能力,与公开报道描述的“能力退化但未消失”不符[6][7] AI模型的政治倾向性表现 - 聊天机器人在保持政治中立方面存在困难,近四分之一的回答未能通过中立性检查[10] - 在选举相关提示上,政治倾向模式明显:Claude所有带有倾向性的回答均偏左,Gemini为90%,ChatGPT为92%,而Grok的回答有76%的时间偏右[10]
Over 90% of AI chatbot answers about midterm elections are flawed, stunning analysis shows