Agentic Memory
搜索文档
硬刚OpenAI,中国团队杀入Agentic AI全球前二,一战封神
36氪· 2026-02-11 16:04
文章核心观点 - 全球大模型竞赛已从实验室的“参数博弈”转向真实商业世界的“实战进化”,能否在真实环境中“破局”成为唯一度量衡[4] - 中国AI初创公司Feeling AI凭借其自研的CodeBrain-1,在权威基准Terminal-Bench 2.0中取得全球第二的成绩,标志着中国AI在智能体(Agentic AI)复杂任务规划与自主编码领域的工程化能力已达到世界顶尖水平[1][6] - 行业竞争底层逻辑已改写,模型与Agent框架的良好组合可能成为未来大模型商业落地的标准形态,而中国团队正以“框架定义者”的角色参与定义未来大模型的工程标准[9][10][27] 行业竞争格局与趋势 - 全球大模型巨头OpenAI与Anthropic在Terminal-Bench 2.0上展开正面交锋,OpenAI的GPT-5.3-Codex+ Simple Codex组合以77.3%(75.1%)的胜率宣称登顶,Anthropic的Claude Opus 4.6在Agentic Terminal Coding Task上胜率为65.4%[4] - 行业评测标准转向硬核实战,Terminal-Bench 2.0被公认为AI智能体在真实命令行环境下端到端执行能力的“金标准”,其升级版大幅拉高门槛,全球顶尖模型解决率普遍难以突破65%[21][24] - 模型正从单一工具进化为“全能代理”,OpenAI宣称其Codex已能横跨全生命周期执行专业人士的所有计算机操作,模型与框架正进化为深度绑定的“智能全家桶”[26] Feeling AI的技术突破与表现 - 公司自研的CodeBrain-1在Terminal-Bench 2.0榜单中,以72.9%(70.3%)的综合得分位列全球第二,仅次于OpenAI的Simple Codex(GPT-5.3-Codex),是前十强中唯一的中国团队[6][11] - 在更聚焦的47条Python任务子集中,CodeBrain-1表现稳定,Py Tasks胜率为72.3%,Coding Tasks胜率为70.2%[14][15] - 在成本效率方面,当基模均使用Claude Opus 4.6时,CodeBrain-1在两者均成功的Py Tasks子任务上消耗的总Token数比Claude Code大幅缩减超15%[16] - 此前,公司发布的MemBrain1.0在多项主流记忆基准评测中拿下全新SOTA,在KnowMeBench Level III最高难度评测中比现有结果大幅提升超300%[8] CodeBrain-1的技术架构与核心能力 - CodeBrain-1是公司原创“跨模态分层架构”中InteractBrain核心层的一部分,专注于复杂动态交互场景下的深度理解与长程规划[9] - 其核心能力是作为“会动态调整计划与策略的大脑”,通过优化任务执行逻辑和错误反馈机制,提升在真实终端环境下的操作成功率[16] - 技术实现上专注两个关键环节:1) Useful Context Searching:利用LSP提高关联信息检索效率,减少噪音;2) Validation Feedback:从LSP Diagnostics中高效定位错误,缩减生成与验证的循环过程[14] - 与顶尖模型常因“过度思考”导致执行链路冗长不同,CodeBrain-1扮演“调度中枢”与“效率校准器”角色,引导模型在常规操作中保持极速响应,仅在关键报错时激活深层思考[25] 应用场景与商业化潜力 - CodeBrain-1具备动态生成可执行程序并根据反馈调整的能力,可应用于个体角色行为调整或群体组织策略演化[16] - 在游戏场景中展示了作为行为与策略生成引擎的潜力,例如驱动游戏Bot完成从理解自然语言需求到规划并执行完整行动脚本的任务,以及实现由群体记忆驱动的战术演化[17][18] - 强大的Agent框架是“模型落地的必经之路”,关乎任务分解精度及在闭环环境中纠错与生存的韧性[26] - 垂直行业的深水区为优秀的工程框架留下巨大商业红利,无论是系统级Agent框架还是精悍的开发者效能工具,这些“离用户更近”的触点都潜藏爆发式增长可能[26] 中国AI团队的行业地位与意义 - Feeling AI的成功表明中国AI团队已在AI时代的“战术调度中心”占据高点,能够深度驱动全球顶尖模型,并参与定义未来大模型的工程标准[10][26] - 公司在OpenAI尖端模型发布后瞬间完成深度整合并跑出领先战绩,证明了中国团队在全球工程化协同中占据制高点,并率先跨越了Agent从“对话玩具”到“生产力工具”的鸿沟[26][27] - 在由OpenAI与Anthropic构建的巨头生态中,中国团队选择以“框架定义者”的角色切入,展现了中国AI创新路径的独特性与韧性[27]
Agentic Memory开年就卷起来了?刚刚,华人团队MemBrain拿下多项SOTA!
机器之心· 2026-02-06 09:05
行业趋势:AI Agent记忆能力成为发展关键 - 2026年初,AI行业在Agentic Memory方向快速进化,将大模型能力推向新高度[1] - 行业共识发生转向,认为没有记忆的Agent只是高级自动补全工具,处理复杂长期任务需要跨会话、结构化的长期记忆机制[1] - 红杉资本合伙人指出,未来Agent的核心挑战是实现“持久化身份”,即在长时间运行中保持一致的理解和上下文记忆[3] - 记忆层被视为Agent迈向好用的“关键能力”,是AI技术圈和资本押注的新风口[2][3] 公司产品:Feeling AI发布MemBrain1.0 - Feeling AI团队发布MemBrain1.0,在多项主流记忆基准评测中取得全新SOTA成绩[3] - 公司在2025年浮出水面,创始人戴勃是生成式AI领域青年科学家,曾任职于NTU和上海AI实验室[4] - 团队已完成两轮超亿元人民币融资,是国内最早尝试世界模型和3D动态交互的团队之一[4] - 核心团队来自清华、港中文、NTU及米哈游、英伟达、商汤等机构,包括清华姚班毕业生[19] 技术性能:MemBrain1.0评测结果领先 - 在LoCoMo基准测试中准确率达93.25%,在LongMemEval基准测试中准确率达84.6%,均获SOTA[9] - 在PersonaMem-v2测试基准上以51.50%的准确率超越现有公开方法[10] - 在KnowMeBench Level III最高难度两个评测中,比现有评测结果大幅提升超300%[3][11] - 具体数据:Mind-Body Interaction评测得分82.2,远超MemOS的21.5;Expert-Annotated Psychoanalysis评测得分63.9,远超MemOS的22.6[12] 算法创新:MemBrain1.0的核心优势 - 采用Agentic思路重构记忆系统,将实体提取、会话摘要生成等核心环节拆解为独立且能协同作战的子Agent[14] - 通过精细化的实体-时间上下文管理设计,在时序任务及多会话场景任务下取得显著提升[9][16] - 优化信息组织方式,将相关信息组织成可按需加载的“语义单元”,让LLM能够深度参与推理,减少语义转化损耗[17] - 设计提供了高部署灵活度,并为异步记忆更新等工程需求预留了扩展空间[15] 战略布局:记忆能力与世界模型愿景 - 公司将世界模型实现分为InteractBrain(理解、记忆与规划)、InteractSkill(能力与执行)和InteractRender(渲染与呈现)三层[24] - MemBrain所代表的记忆能力是InteractBrain的关键组成部分,旨在为世界模型构建护城河[24][25] - 团队早在2024年就押注世界模型,目标是让世界模型真正走向动态世界的智能交互[19][25] - 公司认为,与动态物理世界交互的核心将由“人”变为“人和AI”[25] 市场前景:记忆系统成为AI基础设施 - 行业明确信号显示,解决Agent的“随时失忆症”是通往AGI的下一把钥匙[27] - 记忆能力被公认为Agent的灵魂,智能大脑的竞争正走向卓越记忆能力的比拼[27] - 英伟达科学家Jim Fan指出,Agent的下一步演进在于高效的技能库索引与自我反思机制,而非参数量的无限堆砌[27] - Memory for Agentic AI正成为基础设施层的核心标配,推动AI从“无状态”单次调用向“有意识”持续进化跨越[27]