AI大模型多轮对话可靠性
搜索文档
AI聊天机器人越聊越“笨”?可能真不是错觉
搜狐财经· 2026-02-21 22:26
大语言模型多轮对话可靠性研究 - 微软研究证实当前最先进的大语言模型在多轮对话中存在“迷失会话”的系统性缺陷,可靠性会急剧下降[1] - 研究对包括GPT-4.1、Gemini 2.5 Pro、Claude 3.7 Sonnet、o3、DeepSeek R1和Llama 4在内的15款顶尖模型进行了超过20万次模拟对话分析[3] - 模型在单次提示任务中的成功率可达90%,但当任务被拆解成多轮自然对话后,成功率骤降至约65%[6] - 模型的核心能力仅降低约15%,但“不可靠性”却飙升112%,模型在多轮对话中变得高度不稳定,难以持续跟踪上下文[7][8] 性能下降的行为机制 - 首先是“过早生成”:模型在用户未完整说明需求前就尝试给出最终答案,早期形成的错误假设会在后续推理中被持续放大而难以修正[10] - 其次是“答案膨胀”:在多轮对话中,模型的回复长度比单轮对话增加了20%至300%,更长的回答包含更多假设与“幻觉”,影响后续推理准确性[10] - 即使是配备了额外“思考词元”的新一代推理模型,如OpenAI o3和DeepSeek R1,也未能显著改善在多轮对话中的表现[12] 研究对行业的影响 - 现有的基准测试主要基于理想的单轮场景,忽略了模型在真实世界中的行为[12] - 对于依赖AI构建复杂对话流程或智能体的开发者而言,这一结论意味着未来将面临严峻挑战[12] 微软Windows 11软件更新 - 微软测试Windows 11新版“画图”应用,重点引入“自由旋转”功能,用户可全方位调整形状、文本框及图像选区[14] - 用户选中对象后,通过拖动上方出现的“旋转手柄”即可向任意方向自由旋转对象,实现更自然的构图和布局[14] - 在“旋转”菜单下新增“自定义旋转”选项,用户可输入具体角度数值,实现精确到1度的微调[16]