Simple Codex
搜索文档
硬刚OpenAI,中国团队杀入Agentic AI全球前二,一战封神
36氪· 2026-02-11 16:04
文章核心观点 - 全球大模型竞赛已从实验室的“参数博弈”转向真实商业世界的“实战进化”,能否在真实环境中“破局”成为唯一度量衡[4] - 中国AI初创公司Feeling AI凭借其自研的CodeBrain-1,在权威基准Terminal-Bench 2.0中取得全球第二的成绩,标志着中国AI在智能体(Agentic AI)复杂任务规划与自主编码领域的工程化能力已达到世界顶尖水平[1][6] - 行业竞争底层逻辑已改写,模型与Agent框架的良好组合可能成为未来大模型商业落地的标准形态,而中国团队正以“框架定义者”的角色参与定义未来大模型的工程标准[9][10][27] 行业竞争格局与趋势 - 全球大模型巨头OpenAI与Anthropic在Terminal-Bench 2.0上展开正面交锋,OpenAI的GPT-5.3-Codex+ Simple Codex组合以77.3%(75.1%)的胜率宣称登顶,Anthropic的Claude Opus 4.6在Agentic Terminal Coding Task上胜率为65.4%[4] - 行业评测标准转向硬核实战,Terminal-Bench 2.0被公认为AI智能体在真实命令行环境下端到端执行能力的“金标准”,其升级版大幅拉高门槛,全球顶尖模型解决率普遍难以突破65%[21][24] - 模型正从单一工具进化为“全能代理”,OpenAI宣称其Codex已能横跨全生命周期执行专业人士的所有计算机操作,模型与框架正进化为深度绑定的“智能全家桶”[26] Feeling AI的技术突破与表现 - 公司自研的CodeBrain-1在Terminal-Bench 2.0榜单中,以72.9%(70.3%)的综合得分位列全球第二,仅次于OpenAI的Simple Codex(GPT-5.3-Codex),是前十强中唯一的中国团队[6][11] - 在更聚焦的47条Python任务子集中,CodeBrain-1表现稳定,Py Tasks胜率为72.3%,Coding Tasks胜率为70.2%[14][15] - 在成本效率方面,当基模均使用Claude Opus 4.6时,CodeBrain-1在两者均成功的Py Tasks子任务上消耗的总Token数比Claude Code大幅缩减超15%[16] - 此前,公司发布的MemBrain1.0在多项主流记忆基准评测中拿下全新SOTA,在KnowMeBench Level III最高难度评测中比现有结果大幅提升超300%[8] CodeBrain-1的技术架构与核心能力 - CodeBrain-1是公司原创“跨模态分层架构”中InteractBrain核心层的一部分,专注于复杂动态交互场景下的深度理解与长程规划[9] - 其核心能力是作为“会动态调整计划与策略的大脑”,通过优化任务执行逻辑和错误反馈机制,提升在真实终端环境下的操作成功率[16] - 技术实现上专注两个关键环节:1) Useful Context Searching:利用LSP提高关联信息检索效率,减少噪音;2) Validation Feedback:从LSP Diagnostics中高效定位错误,缩减生成与验证的循环过程[14] - 与顶尖模型常因“过度思考”导致执行链路冗长不同,CodeBrain-1扮演“调度中枢”与“效率校准器”角色,引导模型在常规操作中保持极速响应,仅在关键报错时激活深层思考[25] 应用场景与商业化潜力 - CodeBrain-1具备动态生成可执行程序并根据反馈调整的能力,可应用于个体角色行为调整或群体组织策略演化[16] - 在游戏场景中展示了作为行为与策略生成引擎的潜力,例如驱动游戏Bot完成从理解自然语言需求到规划并执行完整行动脚本的任务,以及实现由群体记忆驱动的战术演化[17][18] - 强大的Agent框架是“模型落地的必经之路”,关乎任务分解精度及在闭环环境中纠错与生存的韧性[26] - 垂直行业的深水区为优秀的工程框架留下巨大商业红利,无论是系统级Agent框架还是精悍的开发者效能工具,这些“离用户更近”的触点都潜藏爆发式增长可能[26] 中国AI团队的行业地位与意义 - Feeling AI的成功表明中国AI团队已在AI时代的“战术调度中心”占据高点,能够深度驱动全球顶尖模型,并参与定义未来大模型的工程标准[10][26] - 公司在OpenAI尖端模型发布后瞬间完成深度整合并跑出领先战绩,证明了中国团队在全球工程化协同中占据制高点,并率先跨越了Agent从“对话玩具”到“生产力工具”的鸿沟[26][27] - 在由OpenAI与Anthropic构建的巨头生态中,中国团队选择以“框架定义者”的角色切入,展现了中国AI创新路径的独特性与韧性[27]