o3 深度解读：OpenAI 终于发力 tool use，agent 产品危险了吗？

OpenAI新模型发布 - OpenAI发布o3和o4-mini模型，其中o3是目前最先进的推理模型，具有全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [5] - o4-mini是专为高效推理优化的小模型，在某些benchmark上表现优于o3，但实际使用中思考时间明显更短 [5] - 两个模型实现了agentic浏览网络、Python代码执行与可视化、图片推理与增强、文件读取等能力 [5] - 模型定价方面，o3比其他一线模型更贵，o4-mini定价是o3的1/10 [59][60] Agent能力突破 - o3的agentic能力接近理想agent，任务完成方式与Deep Research类似，能在3分钟内给出不错结果 [6] - o3的tool use体验无缝，比Devin、Manus等产品更快更自然，思考推理过程更长不截断 [6] - 测试显示o3能完成YC官网企业信息整理和Amazon销售数据分析等复杂任务，表现优于Manus [7][8][11][12] - 用户案例显示o3能自主定位Youtube视频内容并进行分析搜索，类似完整agent的工作方式 [28] 多模态能力进展 - o3和o4-mini首次实现将图像直接融入CoT，能"看懂"图像并用图像思考，在多模态理解benchmark领先 [33] - 测试显示模型能处理模糊、反转或低质量图像，理解内容并进行裁剪、旋转等操作 [34] - 模型通过地貌、文字等线索成功识别埃及尼罗河和马来西亚婆罗洲等地理位置 [37][39] - 但视觉推理能力仍不稳定，在数手指、判断时钟时间等任务上存在系统性错误 [53][55][56] 技术路线与商业化 - agent产品分化为两类技术路线：OpenAI的黑盒端到端训练和Manus的白盒工作流外置 [4][6] - OpenAI将agent产品作为未来商业化收入重点，可能覆盖通用agent产品市场 [3] - 开源Codex CLI旨在普及竞品功能，具有多模态推理和本地代码环境集成两大特性 [47][51] - RL Scaling依然有效，算力投入与性能提升成正比，o3比o1表现更好 [61][62] 强化学习发展方向 - RL教父提出"体验时代"概念，强调agent需从自主经验中学习达到超人类水平 [65][68] - 未来agent将形成长期连续experience stream，能自我修正实现长期目标 [68] - 需转向基于真实环境信号的奖励机制，如健康数据、考试成绩等 [70] - agent可能发展出非人类思维方式，结合世界模型实现更有效规划 [71]