Agent Framework - 财报，业绩电话会，研报，新闻

Agent Framework

搜索文档

硬AI· 2026-04-13 16:20

苹果AI战略核心观点 - 苹果采取"自研小模型+外包大模型"的轻资产策略，规避高额资本开支竞争，通过隐私护城河维系生态，但在AI竞争重心向代理（Agent）生态迁移时面临被边缘化的结构性风险 [2][5][17] AI战略路径 - 战略从两年前WWDC的宏大承诺退守为"嵌入足够AI功能留住用户、大力借助第三方"的务实路线，被前高管称为"黑眼圈"事件 [3] - 战略核心是双轨制：持续投入自研5000亿参数以下的小模型，专注于设备端和苹果私有云；同时整合OpenAI的ChatGPT和谷歌Gemini等第三方大模型覆盖高阶需求 [6][7] - 不参与前沿大模型竞争的逻辑包括：训练前沿模型需数百亿美元资本开支，而AI对苹果营收贡献间接、难以核算回报；公司文化偏向技术被验证后再押注；以及管理层一贯的预算纪律 [7] - 模型同质化趋势支持外包逻辑，领跑者与追赶者的性能差距已从超过一年缩短至一至三个月，苹果预计将持续扩大符合隐私门槛的第三方合作范围 [8] 隐私策略的权衡 - AI数据处理遵循三层架构：设备端（含安全隔区）优先，其次苹果私有云，仅在用户知情同意后转交第三方，这是第三方合作的核- 心准入标准 [10][11] - 隐私优先策略对AI能力构成约束，可用训练数据受限客观上放缓了模型迭代速度，使苹果相对于约束更少的竞争对手处于劣势 [11] - 隐私策略也影响AI人才吸引力，苹果的AI薪酬未达市场竞争水准，且非前沿大模型研究者的理想选择，AI负责人向隐私主管汇报的组织变化传递了特定信号 [11] - 长期看，隐私是差异化优势来源，25亿台活跃设备积累的海量匿名数据及对设备端AI的垂直整合控制，使苹果在"安全、私密的个人AI"赛道具备结构性优势 [11] Siri的现状与潜力 - Siri曾是中国以外地区日活超3亿的最大AI产品之一，但公司对ChatGPT 3.5引发的Transformer范式转变响应滞后，选择对原有模型进行"爬坡式改进"而非底层重建，导致与主流AI平台出现感知差距 [12][13] - 前沿大模型参数量已达5万亿至10万亿级别，仅存储2万亿至3万亿参数模型就需要超500GB空间，设备端运行不现实，这是苹果自研模型聚焦5000亿参数以下的现实约束 [13] - Siri具备成为安全型个人AI代理的独特基础，苹果对硬件、操作系统和用户情境数据的端到端控制，使其能运行在设备端并调用本地数据，优于沙盒环境中的代理工具 [4][14][15] 代理（Agent）时代的风险 - 随着AI竞争重心从模型层转向代理框架、任务编排和生态工作流，苹果"外包模型、自控端侧"的逻辑面临根本挑战 [5][17] - 代理生态的锁定效应远强于单一模型，价值将加速沉淀在控制代理框架和用户工作流的层级，而非底层模型本身，简单切换第三方模型将不再奏效 [17] - 苹果目前的文化和预算纪律既是优质产品管理的基础，也可能束缚进取，要释放更大风险胃口需做出改变，能否在代理层主动布局而非仅充当模型分发渠道，是其AI下半场地位的关键 [17] 算力市场宏观判断 - 计算资源有潜力成为全球最大宗商品，规模可能超越每年2万亿至3万亿美元的油气市场 [19] - 算力瓶颈正发生结构性转变，从GPU供给短缺迁移至网络、数据中心空间、电力、散热、CPU及高带宽内存（HBM）等多点并发制约，2026年美国数据中心可用容量已不足1% [19] - 评估GPU资产价值应重视"经济使用寿命"而非"物理使用寿命"，H系列GPU物理寿命可达六至七年，但综合考虑负债成本、置换机会成本及新一代芯片价格竞争力，其经济寿命可能更早结束 [20] - Blackwell系列GPU高功耗（72卡机架超140千瓦，约为H100系列的三至四倍）和液冷需求使寿命预测复杂，H系列与Blackwell系列存在代际分界，评估资产价值需分代际考量 [20]

苹果(US:AAPL)

Artificial Intelligence

Artificial Intelligence

比肩OpenAI Simple Codex，中国团队闯入Terminal-Bench全球第二！

机器之心· 2026-02-10 19:03

基础大模型竞争进入实战阶段 - Anthropic与OpenAI相继推出Claude Opus 4.6和GPT-5.3-Codex，模型能力的较量进入实战比拼阶段，重点提升模型规划能力和维持长时间自主工作流的能力，以回应商业化落地“最后一公里”的要求[1] - 在权威基准Terminal-Bench 2.0的评测中，Claude Opus 4.6在Agentic Terminal Coding Task上取得65.4%的准确率，而OpenAI的GPT-5.3-Codex则宣称达到77.3%（榜单数据显示为75.1% ± 2.4），拥有目前最佳的编码性能[1] Feeling AI团队与CodeBrain-1的突破性表现 - 中国团队Feeling AI凭借其Agent框架CodeBrain-1，搭载GPT-5.3-Codex底座模型，在Terminal-Bench 2.0基准测试中以70.3% ± 2.6的准确率位列全球第二，是榜单前十中唯一的中国团队[2][4][5] - 根据榜单数据，排名第一的是OpenAI的Simple Codex（75.1% ± 2.4），第三名为Factory的Droid（使用Claude Opus 4.6，准确率69.9% ± 2.5）[7] - CodeBrain-1在技术实现上专注打磨两个核心环节：通过“Useful Context Searching”提高关联信息检索效率，减少噪音；通过“Validation Feedback”高效定位错误并补充信息，缩短生成与验证的循环[9] - 在47条纯Python任务的子集评测中，CodeBrain-1表现出稳定一致的完成能力，关联检索更高效，问题定位更快[9] - 在成本控制方面，当基模均使用Claude Opus 4.6时，CodeBrain-1相比Claude Code在两者均成功的Py Tasks子任务上，消耗的总Token数大幅缩减超过15%[8] Terminal-Bench 2.0基准的含金量与挑战 - Terminal-Bench 2.0是由斯坦福大学与Laude Institute开发的开源基准，专门评估AI智能体在真实命令行终端环境下的端到端任务执行能力[13] - 其特点包括：在真实Docker容器环境中测试；包含89个长程硬任务；配备严苛的自动验证脚本；2.0版本显著提升了任务难度，目前顶级大模型得分通常低于65%[17] - 该基准任务难度高，即使顶尖模型也未实现完美解决率，CodeBrain-1首次上榜即位列全球第二，含金量很高[13] Agent框架的核心价值与商业前景 - 强大的Agent框架可以弥补“模型”与“真实环境”的鸿沟，管理状态与长程规划，并解决“自我修正”循环，这是CodeBrain-1的核心价值[17] - Agent框架通过充当“节流阀”和“校准器”，引导模型在关键报错点深度思考，在常规操作中保持高效率，这被认为是拉开大模型商业落地差距的核心技术点[13] - OpenAI将模型与Agent框架的组合类比为“赛车手+F1赛车”，一个能驾驭全球顶尖模型的中国框架，意味着中国团队在AI时代的“高级操作系统”竞争中跻身全球前沿[14] - 基础模型公司虽强大，但各行各业的垂直场景离不开良好的工程框架，离用户更近的Agent框架或开发者工具暗藏着巨大的商业价值[16] - 行业观点认为，AI的第一波浪潮是模型中心化，第二波浪潮将是应用与工作流中心化，未来的胜者是那些能控制工作流的公司[18] Feeling AI的技术理念与战略布局 - CodeBrain-1被定义为一个由代码组成、能够持续调整计划与策略的“执行型大脑”，而不仅仅是“更会说话”的AI[16] - 该团队提出一种新的人机协作模式：人类定义智能的“维度”和“基调”，AI在受限空间内动态生成具体行为与策略，并根据反馈调整[11] - Feeling AI将其“世界模型”的实现分为InteractBrain（理解、记忆与规划）、InteractSkill（能力与执行）和InteractRender（渲染与呈现）三层，其MemBrain和CodeBrain分别在相关领域取得全球领先成绩，证明了其技术路径[18] - 在OpenAI和Anthropic主导的生态下，中国团队作为“框架定义者”杀入竞争，代表了中国AI技术创新路径的独特性[19]

Artificial Intelligence

Agent Framework

Artificial Intelligence

Claude Opus 4.6

GPT-5.3-Codex

CodeBrain-1

Artificial Intelligence

Agent Framework

Artificial Intelligence

Claude Opus 4.6

GPT-5.3-Codex

CodeBrain-1