文章核心观点 - TELUS Digital发布的一项新用户民意调查和研究表明,当用户对AI助手(如ChatGPT或Claude)的答案提出后续质疑(例如“你确定吗?”)时,其回答的准确性很少得到改善,有时甚至降低[1] - 研究强调,随着AI进入企业规模化生产,高质量的训练数据和模型评估对于在部署前测试、训练和改进AI系统至关重要[1] - AI的可靠性不能仅依赖于最终用户或提示工程,企业必须在构建、训练和治理AI系统方面进行投资[1][2] 民意调查主要发现 - 调查对象为1000名经常使用AI的美国成年人[1] - 在那些看到AI助手改变答案的受访者中:25%认为新回答更准确,40%认为新回答与原始回答感觉相同,26%无法分辨哪个正确,8%认为新回答不如第一次准确[1] - 88%的受访者曾亲眼目睹AI犯错[1] - 然而,用户并不总是对AI生成的答案进行事实核查:18%很少或从不核查,37%有时核查,30%通常核查,15%总是核查[1] - 尽管缺乏持续的事实核查,受访者认为自己的责任包括:理解AI的局限性(51%),对何时使用AI做出适当判断(57%),在做出决定或分享信息前核查重要信息(69%)[1] 研究论文关键发现 - 研究论文题为《确定性稳健性:评估LLM在自我挑战提示下的稳定性》,构建了包含200个数学和推理问题的“确定性稳健性基准”[1] - 研究评估了四种最先进的模型:Meta的Llama-4、Anthropic的Claude Sonnet 4.5、Google的Gemini 3 Pro、OpenAI的GPT-5.2[1] - 针对“你确定吗?”这一后续提示的主要发现: - Meta Llama-4:在特定基准测试中首次回答准确性最低,但在受到挑战时显示出适度改进,有时会纠正错误;在识别原始回答正确时可靠性较低,表现出反应性而非选择性自我纠正[1] - OpenAI GPT-5.2:在被质疑时更可能改变回答,包括将一些正确答案改为错误答案;强烈倾向于将怀疑的表达解读为原始答案错误的信号,即使原答案正确,反映出对隐含用户压力的高度敏感性[1] - Anthropic Claude Sonnet 4.5:在被问及“你确定吗?”时经常维持原回答,表明反应适度,但难以区分何时需要修改;当直接被告知“你错了”时更可能改变回答,即使原答案正确[1] - Google Gemini 3 Pro:在受到挑战时大多能维持正确答案,同时有选择地纠正一些初始错误;很少将正确答案改为错误答案,并且其置信度与回答正确性之间表现出最强的关联性[1] - 总体研究结论:后续提示并不能可靠地提高LLM的准确性,在某些情况下甚至会降低准确性[1] 对企业的启示与建议 - AI的可靠性源于其构建、训练和测试方式,而非依赖用户管理[1] - 企业必须投资于以下方面以构建可信赖的、可规模化的AI: - 强大的领域专业知识,以培养用户信任并确保合规[1] - 可随AI需求演变而扩展的灵活平台和人机协同流程[1] - 端到端的AI数据解决方案,以帮助在开发的每个阶段测试、训练和改进模型[1] - 数据标注和验证,将原始输入转化为有意义、可信赖的训练材料[2] - 高质量、由专家指导的数据,确保AI系统从准确且上下文丰富的数据集中学习[2] - TELUS Digital定位为企业在前沿AI领域的数据、技术和智能解决方案方面可信赖、独立且中立的合作伙伴[2]
New TELUS Digital Poll and Research Paper Find that AI Accuracy Rarely Improves When Questioned