Workflow
多模态CoT
icon
搜索文档
o3解读:OpenAI发力tool use,Manus们会被模型取代吗?
Founder Park· 2025-04-30 20:31
模型发布与能力升级 - OpenAI发布o3和o4-mini模型,o3具备最全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [8] - o4-mini专为高效推理优化,部分benchmark表现优于o3,但实际使用中思考时间更短 [8] - 模型首次实现将图像直接融入CoT中,能"看懂"图像并用图像思考,在多模态理解benchmarks中领先 [45] - o3在外部专家评估中比o1少犯20%重大错误,能意识到自身能力边界并拒绝无法解决的问题 [61] 技术路线与产品策略 - Agent产品分化出两类路线:OpenAI黑盒化端到端训练路线和Manus白盒化虚拟机模仿人类工作方式路线 [15] - OpenAI将Agent产品作为未来商业化收入占比的大头 [4] - OpenAI开源Codex CLI,具备多模态推理能力和本地代码环境集成特性,旨在普及竞争对手产品 [64][68] - OpenAI采用先训练mini reasoning版本再scale到full model的发布策略,与GPT系列先大后小的策略不同 [9] 能力测试与表现 - o3在YC官网信息收集任务中经过两次prompt后完成90+家公司信息整理,而Manus能一次性完成但速度较慢 [16][17] - 在Amazon销售数据分析任务中,o3比Manus给出更简洁专业的策略建议和可视化效果 [19][27][28] - o3能通过模糊图片识别出《绝命毒师》角色"炸鸡叔"Gus Fring [46][52] - 模型在数手指个数和判断时钟时间等视觉推理任务上仍存在系统性错误 [69][70][72] 定价与市场竞争 - o3定价为$10/Mtok输入和$40/Mtok输出,是旗舰模型中最贵的 [77][80] - o4-mini定价为o3的1/10,比Claude 3.7更便宜 [78][80] - Gemini 2.5 Pro和DeepSeek-V3等模型在性价比上更具优势 [80] - 行业认为所有一线模型定价可视为在同一水平竞争,Gemini和OpenAI相对便宜 [77][79] 技术发展与未来方向 - OpenAI发现RL Scaling呈现"more compute = better performance"规律,o3投入算力比o1高一个数量级 [81][82] - 强化学习教父提出Era of Experience概念,认为agent需从experience中学习达到superhuman水平 [85][86] - 未来agent可能发展出非人类思维方式的推理,如符号化、分布式或可微分计算 [89] - 构建"world model"预测动作对环境的影响将成为重要发展方向 [89]