认知卸载现象 - 财报，业绩电话会，研报，新闻

认知卸载现象

搜索文档

OTC‑PO重磅发布 | 揭开 o3 神秘面纱，让 Agent 少用工具、多动脑子！

机器之心· 2025-05-07 12:34

核心观点 - 研究提出OTC-PO框架，通过强化学习优化大语言模型工具使用行为，在保持准确率前提下显著提升效率（工具调用减少73.1%，工具效率提升229.4%）[10][15] - 首次量化认知卸载现象，发现模型越大越依赖外部工具而削弱自身推理能力[13][16] - 提出工具生产力概念，兼顾答案正确性与调用成本，实现Minimizing Acting=Maximizing Reasoning的智能行为模式[13][21] Agent行为模式 - 核心分为推理(Reasoning)和行动(Acting)两种模式，前者涉及反思/分解等思考技巧，后者涉及工具/API调用[4] - 现有方法仅关注最终答案正确性，导致过度优化问题：过度依赖工具(认知卸载)或过度推理[5][7] - 理想行为应动态平衡两者，如OpenAI o3仅在超出能力范围时调用工具[7] 方法论创新 - 定义最优工具调用次数n，要求模型在答对前提下最小化成本($\operatorname*{arg\,min}_{\tau}\mathrm{Cost}(\tau)$)[11] - 设计奖励函数$r_{\phi}^{tool}(q,y)=\alpha*r_{tool}*r_{\phi}(q,y)$，结合工具效率与答案正确性[12][14] - OTC-PO框架通用性强，代码修改仅需数行即可适配现有RL算法[13] 实验结果 - 7B模型工具生产力最高提升256.9%，工具调用减少73.1%[15] - GRPO算法优于PPO，因多采样能更精准估计最优工具调用次数[16] - 训练效率提升：响应时间缩短，资源消耗降低（图表显示优化曲线更陡峭）[18] - 跨领域测试(OOD)表现优异，部分场景准确率与效率同步提升[20] 行业意义 - 为构建类似OpenAI o3的智能体提供可行路径，推动Agent研究范式转变[22] - 首次将RL应用于工具使用行为优化，开辟大模型效率提升新方向[13][22]

强化学习（Reinforcement Learning）

强化学习（Reinforcement Learning）