隐式推理
搜索文档
放弃 CoT?Agentic 时代为什么更需要隐式推理?
机器之心· 2025-09-28 15:05
放弃CoT?Agentic时代为什么更需要隐式推理 - 以CoT为代表的显式推理通过将思考过程外化为人类可读的文本步骤,推动了LLM推理能力的飞跃,成为业界最佳实践[8] - 随着产业向Agentic AI倾斜,显式推理的局限性暴露,其固有的序列化操作过程在需要归纳推理的任务上会主动引入并放大错误,损害模型性能[9] - 研究揭示CoT推理常与模型实际隐藏计算路径不符,其分步思考能力往往是不忠实的,不应被视为可解释性技术[9] - CoT推理更像是对训练数据分布内模式的复现,一旦输入任务与训练数据存在差异,推理链条会迅速失效,呈现脆弱性[9] - 显式推理过程极其耗时,导致需要实时响应的Agent无法适应这种延迟,且对简单问题毫无必要,被诟病为废话生成器[10] - CoT每次思考消耗大量token,直接增加API调用成本,使得大规模、高频次Agent应用在经济上不可行[10] - 未来AI Agent需具备根据任务难度动态调整思考深度和速度的能力,即在智能频谱的不同频率间切换[10] - 智能频谱概念由1X的AI副总裁Eric Jang提出,类比电磁波谱,一端为极慢智能,一端为极快智能,当前主流AI聊天助手处于1-2Hz智能,远不及人类10Hz的自然对话节奏[10] - 未来通用智能体需覆盖从缓慢战略规划到流畅日常对话再到瞬时反应的整个智能频谱[11] - 相比显式推理常用的先思后言模式,隐式推理将推理过程内化到模型潜在空间中,具备更低延迟和成本,更适配智能体任务场景[11] - 隐式推理此前最大的黑箱问题,可能随着人们对智能体可靠性要求的变化而不再成为硬伤[12] 实时推理的挑战与路径 - 在先思后言范式中,模型在输出前完成基于完整上下文的思考,生成可被人类专家审查的显式推理步骤,这在非实时、高风险决策场景中具备必要性[13] - 当Agent作用于真实物理环境,其实时推理能力直接影响用户体验,先思后言范式导致AI在回答前思考数秒的尴尬停顿,无法适用于语音助手、车载系统等场景[13] - DeepSeek-R1和OpenAI o1等采用先思后言范式的模型具备复杂推理能力,但深度思考功能带来的延迟使其无法用于端到端对话模型[14] - 深度思考或完全不思考带来两种极端体验,即要么得到强大但反应迟钝的助手,要么得到迅速但思维简单的助手[15] - 针对端到端对话模型在实时性与推理能力间的矛盾,研究者探索理论上更高效的隐式推理方法,其推理过程在内部不可见的潜在表示中进行,不生成任何中间文本步骤[15] - 由于无需生成冗长中间文本,隐式推理速度极快,计算成本远低于显式推理,但早期工作因性能局限和可解释性问题而未如CoT流行[15] - 在早期或较小模型中,没有显式步骤指导的隐式推理难以在复杂多步问题上实现泛化,模型倾向学习浅层模式匹配而非真正结构化推理,问题结构稍变时准确性会急剧下降[16]