Why Microsoft's Copilot AI falsely accused court reporter of crimes he covered
文章核心观点 - 生成式AI存在“幻觉”问题,会给出不准确或无意义的回答,使用时需人类验证信息,公司难以主动避免此类问题,用户要自行验证输出的有效性 [2][7] 生成式AI“幻觉”案例 - 德国记者Martin Bernklau用微软Copilot查询自己信息时,Copilot称其是精神病院逃犯、儿童虐待罪犯和诈骗鳏夫的骗子,原因是他曾报道相关犯罪审判,文章可能被纳入训练语料库 [1][4] - 2023年美国脱口秀电台主持人Mark Walters成功起诉OpenAI,ChatGPT曾称他因欺诈和挪用资金被支持持枪权的SAF起诉,原因是语料库中他的节目与SAF目标相似产生统计关联 [4][5] 生成式AI工作原理 - Copilot等生成式AI系统是大语言模型,其底层信息处理系统是“深度学习神经网络”,用大量人类语言训练算法,通过学习训练数据中不同单词的统计关系和出现概率来预测回答,本身不具备实际知识 [2][3] 训练数据情况 - Copilot训练数据庞大,结合了整个ChatGPT语料库和微软特定文章,ChatGPT3和3.5使用了“数千亿个单词”,ChatGPT4语料库更大 [3] 问题解决情况 - 纠正整个语言语料库的问题几乎不可能,像Bernklau这种将人与犯罪错误关联的“幻觉”更难检测和处理,微软针对Bernklau案例设计了自动回复说明情况,并表示会结合用户反馈更新改进 [6] 应对建议 - 用户需用既定方法验证生成式AI输出的有效性,如找到三个独立来源证实后再接受输出;拥有这些工具的公司难以主动避免问题,只能对发现的“幻觉”做出反应 [7]