o3深度解读：OpenAI终于发力，agent产品危险了吗？

文章核心观点 - 文章着重解读OpenAI新发布的o3、o4 - mini等模型及开源的Codex CLI，分析其特点、能力、应用机会、可靠性、定价等方面，还探讨了RL Scaling方向及相关论文观点 [1][3][59] 各部分总结 o3和o4 - mini模型特点 - o3是最先进推理模型，有全面推理能力、丰富tool use方式和全新多模态CoT能力；o4 - mini是为高效推理优化的小模型，在部分benchmark表现不错，思考时间更短 [3][4] - 两个模型在agentic和multimodal能力上完整性出色，可实现agentic浏览网络、多次迭代搜索信息，付费用户可体验o3、o4 - mini和o4 - mini - high，o1、o3 - mini和o3 - mini - high已下架 [5] o3让ChatGPT进化 - Agentic能力是o3与之前o系列模型最大区别，工作方式和效果接近Deep Research，tool use体验无缝，突破原本o系列模型能力约束 [7][9] - 测试显示，o3在完成特定任务上有表现，虽首次执行部分任务有不足，但经提示可完成，且在部分任务结果呈现上比Manus更简洁、重点突出 [10][11][18] 多模态CoT解锁应用机会 - o3和o4 - mini首次将图像融入CoT，能“看懂”图像、用图像思考，在多模态理解benchmarks中领先，在事实可靠性任务中可用性增强 [41] - 测试表明，o3能对模糊图片进行处理和推理，识别剧中人物和图片拍摄地点 [44][46] o3可靠性提升 - o3在实现困难任务时比o1少犯20%重大错误，能意识到自身无法解决的问题，减少模型幻觉，增加可靠性 [56] OpenAI开源Codex CLI - 开源的Codex CLI是轻量级coding agent，可在本地电脑运行，支持多模态推理，目的是将AI模型与用户计算机无缝连接，普及竞争对手已有产品以占领市场 [59][62] - 具有多模态推理和与本地代码环境集成两个重要特性，为开发者与AI交互开辟新可能，融入开发者工作流程 [63] 负面评价 - 用户负面评价集中在视觉推理能力不稳定和AI Coding能力不强两方面 [64] 定价情况 - o3比其他一线模型贵，Claude 3.7、Grok 3、Gemini 2.5 pro效果在同一水平，Claude 3.7定价相对较贵，Grok 3对标Claude 3.7 Sonnet定价，Gemini 2.5价格最低 [72] - o4 - mini定价是o3的1/10，比Claude 3.7便宜，gpt - 4.1性价比不高，但利用好gpt - 4.1 - mini或o4 - mini性价比高，几家模型定价在同一水平竞争，Gemini和OpenAI相对便宜 [73][74] RL Scaling及Era of Experience - o3开发中发现large - scale RL规律，OpenAI通过RL训练o3和o4 - mini，在o3 RL training和inference time scaling投入算力比o1高一个数量级 [76][78] - Richard Sutton和David Silver发布文章强调新一代agent需从experience中学习达到superhuman水平，RL重要性将提升，还论述了奖励和规划推理相关观点 [81][82]