比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二!
机器之心·2026-02-10 19:03

基础大模型竞争进入实战阶段 - Anthropic与OpenAI相继推出Claude Opus 4.6和GPT-5.3-Codex,模型能力的较量进入实战比拼阶段,重点提升模型规划能力和维持长时间自主工作流的能力,以回应商业化落地“最后一公里”的要求[1] - 在权威基准Terminal-Bench 2.0的评测中,Claude Opus 4.6在Agentic Terminal Coding Task上取得65.4%的准确率,而OpenAI的GPT-5.3-Codex则宣称达到77.3%(榜单数据显示为75.1% ± 2.4),拥有目前最佳的编码性能[1] Feeling AI团队与CodeBrain-1的突破性表现 - 中国团队Feeling AI凭借其Agent框架CodeBrain-1,搭载GPT-5.3-Codex底座模型,在Terminal-Bench 2.0基准测试中以70.3% ± 2.6的准确率位列全球第二,是榜单前十中唯一的中国团队[2][4][5] - 根据榜单数据,排名第一的是OpenAI的Simple Codex(75.1% ± 2.4),第三名为Factory的Droid(使用Claude Opus 4.6,准确率69.9% ± 2.5)[7] - CodeBrain-1在技术实现上专注打磨两个核心环节:通过“Useful Context Searching”提高关联信息检索效率,减少噪音;通过“Validation Feedback”高效定位错误并补充信息,缩短生成与验证的循环[9] - 在47条纯Python任务的子集评测中,CodeBrain-1表现出稳定一致的完成能力,关联检索更高效,问题定位更快[9] - 在成本控制方面,当基模均使用Claude Opus 4.6时,CodeBrain-1相比Claude Code在两者均成功的Py Tasks子任务上,消耗的总Token数大幅缩减超过15%[8] Terminal-Bench 2.0基准的含金量与挑战 - Terminal-Bench 2.0是由斯坦福大学与Laude Institute开发的开源基准,专门评估AI智能体在真实命令行终端环境下的端到端任务执行能力[13] - 其特点包括:在真实Docker容器环境中测试;包含89个长程硬任务;配备严苛的自动验证脚本;2.0版本显著提升了任务难度,目前顶级大模型得分通常低于65%[17] - 该基准任务难度高,即使顶尖模型也未实现完美解决率,CodeBrain-1首次上榜即位列全球第二,含金量很高[13] Agent框架的核心价值与商业前景 - 强大的Agent框架可以弥补“模型”与“真实环境”的鸿沟,管理状态与长程规划,并解决“自我修正”循环,这是CodeBrain-1的核心价值[17] - Agent框架通过充当“节流阀”和“校准器”,引导模型在关键报错点深度思考,在常规操作中保持高效率,这被认为是拉开大模型商业落地差距的核心技术点[13] - OpenAI将模型与Agent框架的组合类比为“赛车手+F1赛车”,一个能驾驭全球顶尖模型的中国框架,意味着中国团队在AI时代的“高级操作系统”竞争中跻身全球前沿[14] - 基础模型公司虽强大,但各行各业的垂直场景离不开良好的工程框架,离用户更近的Agent框架或开发者工具暗藏着巨大的商业价值[16] - 行业观点认为,AI的第一波浪潮是模型中心化,第二波浪潮将是应用与工作流中心化,未来的胜者是那些能控制工作流的公司[18] Feeling AI的技术理念与战略布局 - CodeBrain-1被定义为一个由代码组成、能够持续调整计划与策略的“执行型大脑”,而不仅仅是“更会说话”的AI[16] - 该团队提出一种新的人机协作模式:人类定义智能的“维度”和“基调”,AI在受限空间内动态生成具体行为与策略,并根据反馈调整[11] - Feeling AI将其“世界模型”的实现分为InteractBrain(理解、记忆与规划)、InteractSkill(能力与执行)和InteractRender(渲染与呈现)三层,其MemBrain和CodeBrain分别在相关领域取得全球领先成绩,证明了其技术路径[18] - 在OpenAI和Anthropic主导的生态下,中国团队作为“框架定义者”杀入竞争,代表了中国AI技术创新路径的独特性[19]

比肩OpenAI Simple Codex,中国团队闯入Terminal-Bench全球第二! - Reportify