OpenAI新模型发布 - OpenAI发布o3和o4-mini模型,其中o3是目前最先进的推理模型,具有全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [5] - o4-mini是专为高效推理优化的小模型,在某些benchmark上表现优于o3,但实际使用中思考时间明显更短 [5] - 两个模型实现了agentic浏览网络、Python代码执行与可视化、图片推理与增强、文件读取等能力 [5] - 模型定价方面,o3比其他一线模型更贵,o4-mini定价是o3的1/10 [59][60] Agent能力突破 - o3的agentic能力接近理想agent,任务完成方式与Deep Research类似,能在3分钟内给出不错结果 [6] - o3的tool use体验无缝,比Devin、Manus等产品更快更自然,思考推理过程更长不截断 [6] - 测试显示o3能完成YC官网企业信息整理和Amazon销售数据分析等复杂任务,表现优于Manus [7][8][11][12] - 用户案例显示o3能自主定位Youtube视频内容并进行分析搜索,类似完整agent的工作方式 [28] 多模态能力进展 - o3和o4-mini首次实现将图像直接融入CoT,能"看懂"图像并用图像思考,在多模态理解benchmark领先 [33] - 测试显示模型能处理模糊、反转或低质量图像,理解内容并进行裁剪、旋转等操作 [34] - 模型通过地貌、文字等线索成功识别埃及尼罗河和马来西亚婆罗洲等地理位置 [37][39] - 但视觉推理能力仍不稳定,在数手指、判断时钟时间等任务上存在系统性错误 [53][55][56] 技术路线与商业化 - agent产品分化为两类技术路线:OpenAI的黑盒端到端训练和Manus的白盒工作流外置 [4][6] - OpenAI将agent产品作为未来商业化收入重点,可能覆盖通用agent产品市场 [3] - 开源Codex CLI旨在普及竞品功能,具有多模态推理和本地代码环境集成两大特性 [47][51] - RL Scaling依然有效,算力投入与性能提升成正比,o3比o1表现更好 [61][62] 强化学习发展方向 - RL教父提出"体验时代"概念,强调agent需从自主经验中学习达到超人类水平 [65][68] - 未来agent将形成长期连续experience stream,能自我修正实现长期目标 [68] - 需转向基于真实环境信号的奖励机制,如健康数据、考试成绩等 [70] - agent可能发展出非人类思维方式,结合世界模型实现更有效规划 [71]
o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗?
海外独角兽·2025-04-25 19:52