Agent Framework
搜索文档
外包大模型、死守Siri,苹果走上一条“最不AI”的路!
硬AI· 2026-04-13 16:20
苹果AI战略核心观点 - 苹果采取"自研小模型+外包大模型"的轻资产策略,规避高额资本开支竞争,通过隐私护城河维系生态,但在AI竞争重心向代理(Agent)生态迁移时面临被边缘化的结构性风险 [2][5][17] AI战略路径 - 战略从两年前WWDC的宏大承诺退守为"嵌入足够AI功能留住用户、大力借助第三方"的务实路线,被前高管称为"黑眼圈"事件 [3] - 战略核心是双轨制:持续投入自研5000亿参数以下的小模型,专注于设备端和苹果私有云;同时整合OpenAI的ChatGPT和谷歌Gemini等第三方大模型覆盖高阶需求 [6][7] - 不参与前沿大模型竞争的逻辑包括:训练前沿模型需数百亿美元资本开支,而AI对苹果营收贡献间接、难以核算回报;公司文化偏向技术被验证后再押注;以及管理层一贯的预算纪律 [7] - 模型同质化趋势支持外包逻辑,领跑者与追赶者的性能差距已从超过一年缩短至一至三个月,苹果预计将持续扩大符合隐私门槛的第三方合作范围 [8] 隐私策略的权衡 - AI数据处理遵循三层架构:设备端(含安全隔区)优先,其次苹果私有云,仅在用户知情同意后转交第三方,这是第三方合作的核- 心准入标准 [10][11] - 隐私优先策略对AI能力构成约束,可用训练数据受限客观上放缓了模型迭代速度,使苹果相对于约束更少的竞争对手处于劣势 [11] - 隐私策略也影响AI人才吸引力,苹果的AI薪酬未达市场竞争水准,且非前沿大模型研究者的理想选择,AI负责人向隐私主管汇报的组织变化传递了特定信号 [11] - 长期看,隐私是差异化优势来源,25亿台活跃设备积累的海量匿名数据及对设备端AI的垂直整合控制,使苹果在"安全、私密的个人AI"赛道具备结构性优势 [11] Siri的现状与潜力 - Siri曾是中国以外地区日活超3亿的最大AI产品之一,但公司对ChatGPT 3.5引发的Transformer范式转变响应滞后,选择对原有模型进行"爬坡式改进"而非底层重建,导致与主流AI平台出现感知差距 [12][13] - 前沿大模型参数量已达5万亿至10万亿级别,仅存储2万亿至3万亿参数模型就需要超500GB空间,设备端运行不现实,这是苹果自研模型聚焦5000亿参数以下的现实约束 [13] - Siri具备成为安全型个人AI代理的独特基础,苹果对硬件、操作系统和用户情境数据的端到端控制,使其能运行在设备端并调用本地数据,优于沙盒环境中的代理工具 [4][14][15] 代理(Agent)时代的风险 - 随着AI竞争重心从模型层转向代理框架、任务编排和生态工作流,苹果"外包模型、自控端侧"的逻辑面临根本挑战 [5][17] - 代理生态的锁定效应远强于单一模型,价值将加速沉淀在控制代理框架和用户工作流的层级,而非底层模型本身,简单切换第三方模型将不再奏效 [17] - 苹果目前的文化和预算纪律既是优质产品管理的基础,也可能束缚进取,要释放更大风险胃口需做出改变,能否在代理层主动布局而非仅充当模型分发渠道,是其AI下半场地位的关键 [17] 算力市场宏观判断 - 计算资源有潜力成为全球最大宗商品,规模可能超越每年2万亿至3万亿美元的油气市场 [19] - 算力瓶颈正发生结构性转变,从GPU供给短缺迁移至网络、数据中心空间、电力、散热、CPU及高带宽内存(HBM)等多点并发制约,2026年美国数据中心可用容量已不足1% [19] - 评估GPU资产价值应重视"经济使用寿命"而非"物理使用寿命",H系列GPU物理寿命可达六至七年,但综合考虑负债成本、置换机会成本及新一代芯片价格竞争力,其经济寿命可能更早结束 [20] - Blackwell系列GPU高功耗(72卡机架超140千瓦,约为H100系列的三至四倍)和液冷需求使寿命预测复杂,H系列与Blackwell系列存在代际分界,评估资产价值需分代际考量 [20]
比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二!
机器之心· 2026-02-10 19:03
基础大模型竞争进入实战阶段 - Anthropic与OpenAI相继推出Claude Opus 4.6和GPT-5.3-Codex,模型能力的较量进入实战比拼阶段,重点提升模型规划能力和维持长时间自主工作流的能力,以回应商业化落地“最后一公里”的要求[1] - 在权威基准Terminal-Bench 2.0的评测中,Claude Opus 4.6在Agentic Terminal Coding Task上取得65.4%的准确率,而OpenAI的GPT-5.3-Codex则宣称达到77.3%(榜单数据显示为75.1% ± 2.4),拥有目前最佳的编码性能[1] Feeling AI团队与CodeBrain-1的突破性表现 - 中国团队Feeling AI凭借其Agent框架CodeBrain-1,搭载GPT-5.3-Codex底座模型,在Terminal-Bench 2.0基准测试中以70.3% ± 2.6的准确率位列全球第二,是榜单前十中唯一的中国团队[2][4][5] - 根据榜单数据,排名第一的是OpenAI的Simple Codex(75.1% ± 2.4),第三名为Factory的Droid(使用Claude Opus 4.6,准确率69.9% ± 2.5)[7] - CodeBrain-1在技术实现上专注打磨两个核心环节:通过“Useful Context Searching”提高关联信息检索效率,减少噪音;通过“Validation Feedback”高效定位错误并补充信息,缩短生成与验证的循环[9] - 在47条纯Python任务的子集评测中,CodeBrain-1表现出稳定一致的完成能力,关联检索更高效,问题定位更快[9] - 在成本控制方面,当基模均使用Claude Opus 4.6时,CodeBrain-1相比Claude Code在两者均成功的Py Tasks子任务上,消耗的总Token数大幅缩减超过15%[8] Terminal-Bench 2.0基准的含金量与挑战 - Terminal-Bench 2.0是由斯坦福大学与Laude Institute开发的开源基准,专门评估AI智能体在真实命令行终端环境下的端到端任务执行能力[13] - 其特点包括:在真实Docker容器环境中测试;包含89个长程硬任务;配备严苛的自动验证脚本;2.0版本显著提升了任务难度,目前顶级大模型得分通常低于65%[17] - 该基准任务难度高,即使顶尖模型也未实现完美解决率,CodeBrain-1首次上榜即位列全球第二,含金量很高[13] Agent框架的核心价值与商业前景 - 强大的Agent框架可以弥补“模型”与“真实环境”的鸿沟,管理状态与长程规划,并解决“自我修正”循环,这是CodeBrain-1的核心价值[17] - Agent框架通过充当“节流阀”和“校准器”,引导模型在关键报错点深度思考,在常规操作中保持高效率,这被认为是拉开大模型商业落地差距的核心技术点[13] - OpenAI将模型与Agent框架的组合类比为“赛车手+F1赛车”,一个能驾驭全球顶尖模型的中国框架,意味着中国团队在AI时代的“高级操作系统”竞争中跻身全球前沿[14] - 基础模型公司虽强大,但各行各业的垂直场景离不开良好的工程框架,离用户更近的Agent框架或开发者工具暗藏着巨大的商业价值[16] - 行业观点认为,AI的第一波浪潮是模型中心化,第二波浪潮将是应用与工作流中心化,未来的胜者是那些能控制工作流的公司[18] Feeling AI的技术理念与战略布局 - CodeBrain-1被定义为一个由代码组成、能够持续调整计划与策略的“执行型大脑”,而不仅仅是“更会说话”的AI[16] - 该团队提出一种新的人机协作模式:人类定义智能的“维度”和“基调”,AI在受限空间内动态生成具体行为与策略,并根据反馈调整[11] - Feeling AI将其“世界模型”的实现分为InteractBrain(理解、记忆与规划)、InteractSkill(能力与执行)和InteractRender(渲染与呈现)三层,其MemBrain和CodeBrain分别在相关领域取得全球领先成绩,证明了其技术路径[18] - 在OpenAI和Anthropic主导的生态下,中国团队作为“框架定义者”杀入竞争,代表了中国AI技术创新路径的独特性[19]