谷歌 Deepmind、斯坦福大学研究人员推出 AI 事实核查工具
核心观点 - 谷歌与斯坦福大学合作推出基于大语言模型的工具SAFE,用于对聊天机器人生成的长回复进行事实核查 [1] 工具功能 - SAFE通过四个步骤对聊天机器人生成的回复进行分析、处理和评估:将答案分割成单个待核查内容、对上述内容进行修正、与谷歌搜索结果进行比较、检查各个事实与原始问题的相关性 [1] 性能评估 - 研究人员创建了包含约16000个事实的数据集LongFact,并在13个大语言模型上测试了SAFE [1] - 在对100个有争议的事实进行的重点分析中,SAFE的判定在进一步审查下正确率达到76% [1] 经济性优势 - SAFE的成本比人工注释便宜20多倍 [1]