文章核心观点 - 文章着重解读OpenAI新发布的o3、o4 - mini等模型及开源的Codex CLI,分析其特点、能力、应用机会、可靠性、定价等方面,还探讨了RL Scaling方向及相关论文观点 [1][3][59] 各部分总结 o3和o4 - mini模型特点 - o3是最先进推理模型,有全面推理能力、丰富tool use方式和全新多模态CoT能力;o4 - mini是为高效推理优化的小模型,在部分benchmark表现不错,思考时间更短 [3][4] - 两个模型在agentic和multimodal能力上完整性出色,可实现agentic浏览网络、多次迭代搜索信息,付费用户可体验o3、o4 - mini和o4 - mini - high,o1、o3 - mini和o3 - mini - high已下架 [5] o3让ChatGPT进化 - Agentic能力是o3与之前o系列模型最大区别,工作方式和效果接近Deep Research,tool use体验无缝,突破原本o系列模型能力约束 [7][9] - 测试显示,o3在完成特定任务上有表现,虽首次执行部分任务有不足,但经提示可完成,且在部分任务结果呈现上比Manus更简洁、重点突出 [10][11][18] 多模态CoT解锁应用机会 - o3和o4 - mini首次将图像融入CoT,能“看懂”图像、用图像思考,在多模态理解benchmarks中领先,在事实可靠性任务中可用性增强 [41] - 测试表明,o3能对模糊图片进行处理和推理,识别剧中人物和图片拍摄地点 [44][46] o3可靠性提升 - o3在实现困难任务时比o1少犯20%重大错误,能意识到自身无法解决的问题,减少模型幻觉,增加可靠性 [56] OpenAI开源Codex CLI - 开源的Codex CLI是轻量级coding agent,可在本地电脑运行,支持多模态推理,目的是将AI模型与用户计算机无缝连接,普及竞争对手已有产品以占领市场 [59][62] - 具有多模态推理和与本地代码环境集成两个重要特性,为开发者与AI交互开辟新可能,融入开发者工作流程 [63] 负面评价 - 用户负面评价集中在视觉推理能力不稳定和AI Coding能力不强两方面 [64] 定价情况 - o3比其他一线模型贵,Claude 3.7、Grok 3、Gemini 2.5 pro效果在同一水平,Claude 3.7定价相对较贵,Grok 3对标Claude 3.7 Sonnet定价,Gemini 2.5价格最低 [72] - o4 - mini定价是o3的1/10,比Claude 3.7便宜,gpt - 4.1性价比不高,但利用好gpt - 4.1 - mini或o4 - mini性价比高,几家模型定价在同一水平竞争,Gemini和OpenAI相对便宜 [73][74] RL Scaling及Era of Experience - o3开发中发现large - scale RL规律,OpenAI通过RL训练o3和o4 - mini,在o3 RL training和inference time scaling投入算力比o1高一个数量级 [76][78] - Richard Sutton和David Silver发布文章强调新一代agent需从experience中学习达到superhuman水平,RL重要性将提升,还论述了奖励和规划推理相关观点 [81][82]
o3深度解读:OpenAI终于发力,agent产品危险了吗?
虎嗅·2025-04-25 22:21