Workflow
GPT 4.1
icon
搜索文档
AI大家说 | Kimi K2:全球首个完全开源的Agentic模型
红杉汇· 2025-07-18 20:24
模型架构与技术特点 - 采用稀疏MoE架构,拥有1万亿总参数量,激活参数为320亿,包含384个专家,每个token选择8个专家进行计算,并设置1个共享专家提高通用性 [4] - 使用改进的MuonClip优化器,在15.5万亿tokens预训练规模下保持稳定,避免大模型常见的"训练崩溃"问题 [7] - 最大上下文长度达128K,擅长处理长文档理解、长对话及大规模检索任务 [8] 性能表现与基准测试 - 在SWE Bench Verified、Tau2、AceBench等测试中取得开源模型SOTA成绩,代码、Agent、数学推理能力领先 [8] - LiveCodeBench编程基准测试准确率53.7%,超越GPT-4.1(44.7%),OJBench得分27.1% [19] - SWE-bench Verified单次尝试准确率65.8%,超越多数开源模型 [21] - Tau2-bench加权平均值66.1%,AceBench英文测试准确率80.1%,MMLU-Pro多语言测试进入领先梯队 [25] 开源与商业化 - 模型权重和代码发布于Hugging Face与Github,采用MIT许可证,支持免费使用与修改 [24] - API定价为4元/百万输入tokens和16元/百万输出tokens,成本优势显著 [24] - 海外平台如OpenRouter、Cline、Visual Studio Code已宣布接入 [12] 行业影响与评价 - 英伟达创始人黄仁勋评价其为"全球最优秀推理模型之一",开源价值获全球认可 [9] - Hugging Face联合创始人称赞其突破闭源限制,《自然》期刊称其引发"DeepSeek时刻" [13][14] - Perplexity CEO计划基于K2进行后训练,科技媒体评价其"成本低廉、性能卓越" [12][16] 应用场景 - 擅长前端开发,可生成3D场景代码,支持粒子系统、可视化等复杂交互 [20] - 能自动解析13万行数据,生成统计图表与回归模型报告,适用于数据分析 [22] - 在EQ-Bench3情商测试与Creative Writing v3创意写作测试中登顶 [25]
o3深度解读:OpenAI终于发力,agent产品危险了吗?
虎嗅· 2025-04-25 22:21
文章核心观点 - 文章着重解读OpenAI新发布的o3、o4 - mini等模型及开源的Codex CLI,分析其特点、能力、应用机会、可靠性、定价等方面,还探讨了RL Scaling方向及相关论文观点 [1][3][59] 各部分总结 o3和o4 - mini模型特点 - o3是最先进推理模型,有全面推理能力、丰富tool use方式和全新多模态CoT能力;o4 - mini是为高效推理优化的小模型,在部分benchmark表现不错,思考时间更短 [3][4] - 两个模型在agentic和multimodal能力上完整性出色,可实现agentic浏览网络、多次迭代搜索信息,付费用户可体验o3、o4 - mini和o4 - mini - high,o1、o3 - mini和o3 - mini - high已下架 [5] o3让ChatGPT进化 - Agentic能力是o3与之前o系列模型最大区别,工作方式和效果接近Deep Research,tool use体验无缝,突破原本o系列模型能力约束 [7][9] - 测试显示,o3在完成特定任务上有表现,虽首次执行部分任务有不足,但经提示可完成,且在部分任务结果呈现上比Manus更简洁、重点突出 [10][11][18] 多模态CoT解锁应用机会 - o3和o4 - mini首次将图像融入CoT,能“看懂”图像、用图像思考,在多模态理解benchmarks中领先,在事实可靠性任务中可用性增强 [41] - 测试表明,o3能对模糊图片进行处理和推理,识别剧中人物和图片拍摄地点 [44][46] o3可靠性提升 - o3在实现困难任务时比o1少犯20%重大错误,能意识到自身无法解决的问题,减少模型幻觉,增加可靠性 [56] OpenAI开源Codex CLI - 开源的Codex CLI是轻量级coding agent,可在本地电脑运行,支持多模态推理,目的是将AI模型与用户计算机无缝连接,普及竞争对手已有产品以占领市场 [59][62] - 具有多模态推理和与本地代码环境集成两个重要特性,为开发者与AI交互开辟新可能,融入开发者工作流程 [63] 负面评价 - 用户负面评价集中在视觉推理能力不稳定和AI Coding能力不强两方面 [64] 定价情况 - o3比其他一线模型贵,Claude 3.7、Grok 3、Gemini 2.5 pro效果在同一水平,Claude 3.7定价相对较贵,Grok 3对标Claude 3.7 Sonnet定价,Gemini 2.5价格最低 [72] - o4 - mini定价是o3的1/10,比Claude 3.7便宜,gpt - 4.1性价比不高,但利用好gpt - 4.1 - mini或o4 - mini性价比高,几家模型定价在同一水平竞争,Gemini和OpenAI相对便宜 [73][74] RL Scaling及Era of Experience - o3开发中发现large - scale RL规律,OpenAI通过RL训练o3和o4 - mini,在o3 RL training和inference time scaling投入算力比o1高一个数量级 [76][78] - Richard Sutton和David Silver发布文章强调新一代agent需从experience中学习达到superhuman水平,RL重要性将提升,还论述了奖励和规划推理相关观点 [81][82]
o3 深度解读:OpenAI 终于发力 tool use,agent 产品危险了吗?
海外独角兽· 2025-04-25 19:52
OpenAI新模型发布 - OpenAI发布o3和o4-mini模型,其中o3是目前最先进的推理模型,具有全面的推理能力、丰富的tool use方式和全新的多模态CoT能力 [5] - o4-mini是专为高效推理优化的小模型,在某些benchmark上表现优于o3,但实际使用中思考时间明显更短 [5] - 两个模型实现了agentic浏览网络、Python代码执行与可视化、图片推理与增强、文件读取等能力 [5] - 模型定价方面,o3比其他一线模型更贵,o4-mini定价是o3的1/10 [59][60] Agent能力突破 - o3的agentic能力接近理想agent,任务完成方式与Deep Research类似,能在3分钟内给出不错结果 [6] - o3的tool use体验无缝,比Devin、Manus等产品更快更自然,思考推理过程更长不截断 [6] - 测试显示o3能完成YC官网企业信息整理和Amazon销售数据分析等复杂任务,表现优于Manus [7][8][11][12] - 用户案例显示o3能自主定位Youtube视频内容并进行分析搜索,类似完整agent的工作方式 [28] 多模态能力进展 - o3和o4-mini首次实现将图像直接融入CoT,能"看懂"图像并用图像思考,在多模态理解benchmark领先 [33] - 测试显示模型能处理模糊、反转或低质量图像,理解内容并进行裁剪、旋转等操作 [34] - 模型通过地貌、文字等线索成功识别埃及尼罗河和马来西亚婆罗洲等地理位置 [37][39] - 但视觉推理能力仍不稳定,在数手指、判断时钟时间等任务上存在系统性错误 [53][55][56] 技术路线与商业化 - agent产品分化为两类技术路线:OpenAI的黑盒端到端训练和Manus的白盒工作流外置 [4][6] - OpenAI将agent产品作为未来商业化收入重点,可能覆盖通用agent产品市场 [3] - 开源Codex CLI旨在普及竞品功能,具有多模态推理和本地代码环境集成两大特性 [47][51] - RL Scaling依然有效,算力投入与性能提升成正比,o3比o1表现更好 [61][62] 强化学习发展方向 - RL教父提出"体验时代"概念,强调agent需从自主经验中学习达到超人类水平 [65][68] - 未来agent将形成长期连续experience stream,能自我修正实现长期目标 [68] - 需转向基于真实环境信号的奖励机制,如健康数据、考试成绩等 [70] - agent可能发展出非人类思维方式,结合世界模型实现更有效规划 [71]