Alphabet-Over 90% of AI chatbot answers about midterm elections are flawed, stunning analysis shows

研究核心发现 - 一项针对主流AI聊天机器人关于新闻与时事内容准确性的大规模独立评估发现，在回答关于中期选举的问题时，有90%的答案存在事实错误、偏见或引用了外国官方媒体[1] - 该研究由初创公司Forum AI进行，评估了OpenAI的ChatGPT、Anthropic的Claude、Google的Gemini和xAI的Grok四款模型，共对3,136个问题生成了12,542条回答，并由专家小组进行判断[4][5] AI模型在信息来源辨别上的缺陷 - 聊天机器人难以区分合法新闻媒体与宣传机构，例如中国官媒《环球时报》，在所有回答中有15%至少引用了一家官方媒体来源[2] - 在外交政策相关问题上，这一问题更为严重：ChatGPT的回答中有51%引用了至少一家官方媒体，Grok为44%，所有聊天机器人在外交政策提示上的总体引用率为35%[3] - 被引用的信息常来自对美国有敌意的政府控制的媒体，包括中国的新华社、环球时报、CGTN、中国日报，以及俄罗斯和伊朗的媒体[4] AI模型的事实准确性表现 - 在所有回答中，约30%包含至少一处事实错误，包括错误日期、政策细节或不当归因[6] - 在事实准确性排名中，OpenAI的ChatGPT错误率最低，为9%，其次是Gemini（25%）、Claude（41%）和Grok（43%）[6] - 研究列举了具体错误案例：例如Gemini称阿肯色州ACA保费在2026年将上涨65%至67%，而实际批准的加权平均涨幅约为22%；Grok在关于美伊局势的回答中称伊朗海军、空军或先进防空系统已无有效作战能力，与公开报道描述的“能力退化但未消失”不符[6][7] AI模型的政治倾向性表现 - 聊天机器人在保持政治中立方面存在困难，近四分之一的回答未能通过中立性检查[10] - 在选举相关提示上，政治倾向模式明显：Claude所有带有倾向性的回答均偏左，Gemini为90%，ChatGPT为92%，而Grok的回答有76%的时间偏右[10]