Workflow
认知卸载现象
icon
搜索文档
OTC‑PO重磅发布 | 揭开 o3 神秘面纱,让 Agent 少用工具、多动脑子!
机器之心· 2025-05-07 12:34
核心观点 - 研究提出OTC-PO框架,通过强化学习优化大语言模型工具使用行为,在保持准确率前提下显著提升效率(工具调用减少73.1%,工具效率提升229.4%)[10][15] - 首次量化认知卸载现象,发现模型越大越依赖外部工具而削弱自身推理能力[13][16] - 提出工具生产力概念,兼顾答案正确性与调用成本,实现Minimizing Acting=Maximizing Reasoning的智能行为模式[13][21] Agent行为模式 - 核心分为推理(Reasoning)和行动(Acting)两种模式,前者涉及反思/分解等思考技巧,后者涉及工具/API调用[4] - 现有方法仅关注最终答案正确性,导致过度优化问题:过度依赖工具(认知卸载)或过度推理[5][7] - 理想行为应动态平衡两者,如OpenAI o3仅在超出能力范围时调用工具[7] 方法论创新 - 定义最优工具调用次数n,要求模型在答对前提下最小化成本($\operatorname*{arg\,min}_{\tau}\mathrm{Cost}(\tau)$)[11] - 设计奖励函数$r_{\phi}^{tool}(q,y)=\alpha*r_{tool}*r_{\phi}(q,y)$,结合工具效率与答案正确性[12][14] - OTC-PO框架通用性强,代码修改仅需数行即可适配现有RL算法[13] 实验结果 - 7B模型工具生产力最高提升256.9%,工具调用减少73.1%[15] - GRPO算法优于PPO,因多采样能更精准估计最优工具调用次数[16] - 训练效率提升:响应时间缩短,资源消耗降低(图表显示优化曲线更陡峭)[18] - 跨领域测试(OOD)表现优异,部分场景准确率与效率同步提升[20] 行业意义 - 为构建类似OpenAI o3的智能体提供可行路径,推动Agent研究范式转变[22] - 首次将RL应用于工具使用行为优化,开辟大模型效率提升新方向[13][22]