Workflow
机器之心
icon
搜索文档
打破学科壁垒!400篇参考文献重磅综述,统一调查「人脑×Agent」记忆系统
机器之心· 2026-01-10 12:06
文章核心观点 - 一篇由哈工大、鹏城实验室、新加坡国立、复旦、北大联合发布的综述,首次系统性地将认知神经科学的人脑记忆机制与人工智能中的智能体记忆进行统一审视,旨在为设计真正“类人”的智能体记忆系统奠定理论基石 [2] - 该综述横跨认知神经科学与人工智能两大领域,涉猎相关文献共400篇,旨在打破学科壁垒,推动智能体记忆系统的跨学科突破 [2] 记忆的定义与视角 - **重新定义记忆**:记忆不仅仅是数据的存储,更是连接过去经验与未来决策的认知桥梁 [4] - **人脑视角**:记忆是大脑存储和管理信息的过程,分为两个阶段:快速形成并整合新信息的神经表征阶段,以及随时间巩固或根据未来情况检索这些表征的阶段 [5] - **大语言模型视角**:记忆表现为三种形态并存,包括参数记忆、工作记忆和显式外部记忆 [6] - **智能体视角**:智能体记忆超越了LLM的简单存储,是一个动态的认知架构,嵌入在智能体与环境的动态交互过程中,与传统侧重于静态知识库查询的RAG有本质区别 [6] 记忆的核心作用 - 在智能体中,记忆系统充当关键主动组件,旨在实现三大核心作用:突破上下文窗口限制、构建长期个性化画像、驱动基于经验的推理 [8] - 记忆通过减轻上下文窗口限制、实现长期个性化以及驱动基于经验的推理来扩展智能体的能力 [10] 记忆的分类学 - **基于认知神经科学的分类**:人脑记忆分为短期记忆和长期记忆,长期记忆又可细分为情景记忆和语义记忆 [15][16][19] - **智能体的双维度分类**:为适应复杂自主任务,提出基于“性质”和“范围”的双维度分类法 [17] - **基于性质**:直接对齐人脑,分为情景记忆和语义记忆 [22] - **情景记忆**:存储完整的交互轨迹,提供过程性知识 [24] - **语义记忆**:存储事实、概念、规则和常识,提供陈述性知识 [24] - **基于范围**:根据记忆在任务流中的生命周期划分 [23] - **轨迹内记忆**:临时工作区,仅在当前任务或会话中有效 [24] - **跨轨迹记忆**:永久存储库,存储可概括的模式、学习的策略、可重用的知识 [24] 记忆的存储机制 - **人脑记忆存储**:是一个跨脑区的动态协作过程 [27] - **短期记忆**:存储位置分布在感觉皮层和额顶网络,存储形式包括持续活动和活动-沉默突触连接 [31] - **长期记忆**:存储涉及海马体和新皮层,海马体充当索引,新信息通过系统巩固转移到新皮层永久存储,存储形式包括事件单元和认知地图 [31] - **智能体记忆存储**:是显式的工程构建,需在存储位置和存储形式上进行设计以平衡计算成本与推理能力 [32] - **存储位置**:包括上下文窗口和外部记忆库 [39] - **存储形式**:包括文本、图结构、参数和隐式表示 [39] 记忆的管理系统 - **人脑记忆管理**:是一个充满可塑性的动态循环,包括记忆形成、更新、检索和整合 [36][38] - **记忆形成**:包括编码和巩固两个阶段 [40] - **记忆更新**:核心驱动力是预测误差,策略包括分化和整合 [44] - **记忆检索**:具有重构性,回忆过程可能伴随再巩固,导致记忆被修改或增强 [44] - **智能体记忆管理**:是一个由记忆提取、更新、检索和应用组成的精密闭环 [41][43] - **记忆提取**:分为扁平提取、分层提取和生成式提取 [45] - **记忆更新**:分为针对上下文窗口的轨迹内更新和针对外部记忆库的跨轨迹更新 [45] - **记忆检索**:主要分为基于相似度的检索和多因素检索 [48] - **记忆应用**:主要分为上下文利用和参数内化两种范式 [48] 记忆系统的评测 - 综述将现有的评测基准分为两类:面向语义的基准和面向情景的基准 [47] - **面向语义的基准**:重点关注智能体如何构建、维护和利用其内部记忆中的信息状态,列举了如MemBench、LongMemEval、MemoryBank等超过20个基准及其数据量 [47] - **面向情景的基准**:旨在评估复杂下游应用场景中智能体记忆系统的实际性能增益,列举了如WebArena、ToolBench、GAIA等超过10个基准及其数据量 [49] 记忆系统的安全 - **主要攻击方式**:分为窃取攻击和投毒攻击两类 [51] - **窃取攻击**:利用精心设计的提示诱导智能体泄露长期记忆中的敏感信息 [55] - **投毒攻击**:向记忆库注入恶意数据以植入后门或进行认知污染,改变智能体行为或使其判断力退化 [55] - **防御体系**:提出三道防线构筑闭环防御 [51] - **检索防御**:在智能体读取记忆前进行清洗和验证 [55] - **响应防御**:在智能体生成回答时引入审查或自我反思机制进行监控 [55] - **隐私防御**:在底层存储上将记忆分区,对敏感数据进行匿名化处理 [55] 未来展望 - **多模态记忆**:未来的记忆系统需要是全模态的,能统一存储与表示文本、图像、音频和视频等多模态信息,使智能体真正理解物理世界 [53][56] - **智能体技能**:借鉴“Agent Skills”概念,将指令集、可执行脚本等封装成结构化单元,以解决不同智能体间记忆难以移植重用的问题,实现跨智能体的技能转移和适应 [54][56]
DeepSeek-OCR是「长文本理解」未来方向?中科院新基准VTCBench给出答案
机器之心· 2026-01-10 12:06
视觉文本压缩技术突破 - DeepSeek-OCR推出的视觉文本压缩技术可将长文档渲染为高密度2D图像,再由视觉编码器转化为少量视觉Token,实现高达2倍至10倍的Token压缩率,大幅降低大模型处理长文本的计算与显存开销 [2][6][7] VTCBench基准测试 - 为评估视觉语言模型对压缩后高密度信息的理解能力,中科院自动化所等机构推出了首个专门针对视觉-文本压缩范式的基准测试VTCBench,其核心使命是衡量模型“看得见”之后的“看得懂”能力 [2][8] - VTCBench通过三大任务系统评估模型在视觉空间中的认知极限:信息检索、关联推理和长期记忆 [10] - 团队同步推出VTCBench-Wild,引入99种不同的渲染配置,以检测模型在复杂现实场景下的鲁棒性,该版本已集成到VLMevalkit [7][11] - VTCBench及其相关资源已在GitHub、Huggingface等平台全面开源 [4][7] 模型性能评估与行业洞察 - 对GPT、Gemini、Claude、QwenVL等10余种尖端模型的评测显示,虽然VTC极大提升了效率,但现有视觉语言模型在复杂推理和记忆任务上的表现仍显著弱于纯文本大语言模型 [16] - 评测结果呈现出显著的“U型曲线”,视觉语言模型能精准捕捉开头和结尾信息,但对中间部分的理解能力随文档变长而剧烈衰退,证明即使在视觉空间,模型依然存在严重的“空间注意力偏见” [14][15] - 消融实验证明,信息密度是决定模型性能的关键因素,直接影响视觉编码器的识别精度 [16] - Gemini-3-Pro在VTCBench-Wild上表现惊艳,其视觉理解能力已几乎追平其纯文本基准,证明了VTC是实现大规模长文本处理的极其可行的路径 [16] 技术意义与未来 - DeepSeek-OCR引领的VTC范式为长文本处理开辟了新路径,VTCBench的出现旨在确保模型在拥有高效压缩“超能力”的同时,依然能够理解压缩内容 [2][18]
因为AI编程,Tailwind CSS差点死了
机器之心· 2026-01-10 12:06
核心观点 - AI编程工具的普及严重冲击了以文档访问为关键转化环节的开源软件商业模式 导致Tailwind CSS项目面临严重的财务危机 尽管其技术流行度创下新高[2][5][8] Tailwind CSS的现状与危机 - Tailwind CSS在2026年极其流行 周下载量超过**2600万次** 但团队却裁掉了**75%**的成员[1][2] - 公司财务困境的核心原因是AI带来的流量与商业转化脱钩:AI直接生成代码 导致开发者不再访问官方文档 进而无法接触到付费产品[2][8] - 具体数据表现为:与2023年初相比 文档访问量下降约**40%** 公司收入下降近**80%**[3][10] - 创始人拒绝了旨在优化项目文档以供大模型(LLM)更好读取的Pull Request 认为这会加剧其商业模式困境[7][8][10] 开源商业模式在AI时代面临的挑战 - 传统Web开发领域开源项目的商业闭环是:工具开源吸引用户 -> 文档官网引流 -> 展示并转化付费产品(如UI组件库)[18] - AI充当了最终用户 但它只将文档作为训练数据使用 从不访问网站或进行消费 彻底截断了“文档引流”这一关键商业转化环节[18] - 这导致开源项目变成了为AI及其背后巨头免费提供基础设施的“假奶牛” 自身无法获取价值[18] - 行业面临的核心新课题是:当用户变成AI时 传统的依附于“人类注意力”和“访问量”的商业逻辑需要重构[38][39] 行业的反应与公司的应对 - 事件引发了广泛争议 有观点认为这是商业模式的失败 而非技术失败[13][17] - 多家直接受益于高质量AI编程体验的公司对Tailwind CSS项目提供了赞助 包括Cursor、Shopify、CodeRabbit以及谷歌AI Studio(每年5000美元)[27][30] - 公司推出了每年**120美元**的个人订阅服务“Tailwind Insider”并获得了新客户[31] - 外部赞助和新增收入缓解了公司的燃眉之急 为其探索新的商业模式赢得了喘息时间[32][33]
YC 年终座谈会:AI 泡沫反而是创业者助力?
机器之心· 2026-01-10 10:30
文章核心观点 - AI经济已形成模型层、应用层和基础设施层并行的稳定格局,各层均具备可观盈利空间 [1] - 业界对AI基础设施和能源的投资看似泡沫,实则为应用层提供了廉价算力与“过剩红利” [1] LLM「王权交替」,为何 Anthropic 比 OpenAI 更受欢迎? - 2025年,YC项目内部的API用量出现“王权交替”,Anthropic的Claude已取代OpenAI的ChatGPT成为最受欢迎的大语言模型 [5] - YC创业公司的技术栈正经历结构性变化:曾占据超过90%市场份额的OpenAI领先优势缩小,Anthropic成为该批次中最受欢迎的API选项 [5] - Anthropic被形容为具备“金毛犬能量”,设计导向更友好、更配合开发者需求;OpenAI则被形容为“黑猫能量”,相对高冷,需要开发者适应 [6][7] - Anthropic在编程辅助方面表现最出色,源于其明确将“编程能力”设定为产品的“北极星指标” [8] - 创始人在个人编程场景中对Claude建立的偏好与信任,会产生“溢出效应”,使其在开发与编程无关的产品时也倾向于选择该模型 [9] - “氛围编程”正从分散的个人用例演变为一个巨大的技术赛道,Replit和Emergent等公司的成功验证了其商业可行性 [10] - “氛围编程”目前尚不能100%用于生产级代码,更适合快速验证想法、搭建原型和迭代 [10] - 衡量企业健康度的核心维度已从团队规模转向人均产出效率,例如Gamma公司凭借仅50人的团队实现了高达一亿美元的年经常性收入 [12] - AI降低了开发门槛,同步拔高了客户期望,导致“想法”不再稀缺,真正的瓶颈转向“能将想法卓越执行的人才” [11] - 早期公司依赖巨额融资筑墙,但过度投入微调却未建立核心壁垒的公司正面临第二波初创公司的追赶 [10] 信任危机下,「手搓 Prompt」才是个人和企业的正确 AI 使用方式? - 为解决复杂任务并建立用户信任,AI开发重心正从通用大模型转向能够执行特定逻辑的“专门化”应用 [13] - “专门化”趋势落地有两类方向:一是适配硬件边缘设备、可本地独立运行的轻量化模型;二是聚焦特定语种或细分专业场景的语音与语言模型 [13]
AAAI 2026在新加坡滨海湾畔共饮一杯:蚂蚁InTech之夜邀您共话AI未来
机器之心· 2026-01-09 16:35
AAAI 2026会议信息 - 第40届AAAI人工智能会议将于2026年1月20日至1月27日在新加坡召开[2] 蚂蚁集团InTech之夜活动 - 蚂蚁集团将于AAAI 2026会议期间的2026年1月23日18:30-20:30,在新加坡举办“蚂蚁InTech之夜”学术酒会[3][4][6] - 活动旨在汇聚AI领域的杰出青年才俊与产业前沿力量,促进跨越学术与产业边界的深度对话[5] - 参与者有机会与蚂蚁InTech奖组委会核心成员及蚂蚁集团相关技术领域负责人面对面交流,深入了解奖项理念与申报机制[5] - 活动将为现场参与者准备专属伴手礼[9] 蚂蚁InTech奖介绍 - 蚂蚁InTech奖是由蚂蚁集团发起的公益性奖项,面向对计算机领域科研进步有关键推动作用的中国青年学者与青年工程师[3][5] - 奖项分为蚂蚁InTech科技奖与蚂蚁InTech奖学金[5] - 其中InTech奖学金是面向全球高校在读中国青年学生的纯公益奖项[5]
让两个大模型「在线吵架」,他们跑通了全网95%科研代码|深势发布Deploy-Master
机器之心· 2026-01-09 14:16
科学软件部署的现状与瓶颈 - 绝大多数科学软件停留在“被发布过”而非“可直接运行”的状态,部署过程常需数天甚至数周解决编译、依赖和兼容性问题[3] - 这种手工维护、不可移植的模式在结构上限制了科学软件的可复现性、大规模评估和系统性集成[3] - 随着AI for Science兴起,工具是否“真的能跑”从工程细节变为第一性问题,AI系统需与科学工具紧密交互[3] - 在Agentic Science场景中,工具部署就绪问题更加尖锐,成为制约其规模化发展的结构性瓶颈[4][5] Deploy-Master项目的目标与设计 - 项目旨在解决科学软件“部署瓶颈”,核心判断是问题不在于工具不够多,而在于缺乏将工具系统性转化为可执行事实的共享基础设施[5] - 项目围绕“发现、理解、构建、执行”的连续部署链路,设计为以执行为中心的一站式自动化工作流[5] 工具发现与筛选流程 - 从91个科学与工程领域出发构建学科空间,使用语言模型扩展关键词,在GitHub等平台进行大规模检索[8] - 通过依赖、引用等信号迭代扩展初始“锚点”仓库,避免关键词搜索盲区[8] - 通过多阶段漏斗流程,从最初约50万个仓库收敛为52550个进入自动部署流程的科学工具候选[9] 自动化构建与验证机制 - 面对构建信息零散、不完整的现实,Build Agent系统遍历构建线索并生成初始方案[13] - 引入双模型评审与辩论机制,通过模型间多轮交互修正方案,将构建成功率从50%–60%提升至95%以上[13] - 每个工具通过最小可执行命令验证,成功部署的工具被结构化、注册并发布至玻尔与SciencePedia平台[13] 部署规模、成本与可观测性 - 构建时间分布呈现长尾特征,大部分工具可在7分钟左右完成,部分涉及复杂编译的工具耗时显著更长[15] - 在成功部署的50112个工具中,覆盖了170多种编程语言,Python占比最大,其次是C/C++、Notebook、R、Java等[16] - 部署成功率在大部分语言中维持较高水平,少数较低情况集中在依赖复杂编译链或系统级库的语言,如C/C++、Fortran[16] - 在2438次构建失败中,失败原因高度集中,最主要来源是构建流程错误,远多于资源、网络或权限问题[16] - 统一的执行基础设施使“科学软件难以部署”从经验判断转化为可量化、可分析、可改进的工程对象[17] 对Agentic Science与更广泛生态的意义 - 项目为社区Agent与各类Master Agent提供了长期缺失的基础前提,即经过执行验证的稳定行动空间[19] - 使得不同来源的社区Agent可以共享同一批可执行工具能力,无需各自维护脆弱环境[19] - 科学工具被视为自动化部署中最困难的一类,在此“最难场景”的成功表明,核心问题在于是否建立以执行为核心的基础设施[19] - 这一判断适用于更广泛的软件工具生态,只要工具需要被执行,就无法绕开“不完美信息”的现实前提[20] - 在Agentic Science时代,执行不是推理后的附属步骤,而是所有能力得以成立的前提[20]
一年后,DeepSeek-R1的每token成本降到了原来的1/32
机器之心· 2026-01-09 14:16
DeepSeek-R1模型论文更新与技术细节 - 模型论文从22页大幅扩充至86页,首次公开了完整的四阶段训练全路径,包括冷启动、训练导向RL、拒绝采样与再微调以及全场景对齐RL [1] - 论文已发表于《自然》期刊(Nature volume 645, pages 633-638 (2025))[3] DeepSeek-R1模型架构与行业影响 - DeepSeek-R1于2025年1月20日发布,是一个拥有6710亿参数的开源推理大模型,采用MoE架构,单Token激活参数为370亿 [4] - 该模型的高效率架构、训练方法、工程优化和蒸馏方法在发布后已成为全行业的趋势 [5] 英伟达Blackwell平台对DeepSeek-R1的优化成果 - 通过软硬件深度协同,自2025年1月以来,英伟达已将DeepSeek-R1的吞吐量提升了约36倍,使单Token的推理成本降低到了约1/32 [6][18] - 在过去三个月中(去年10月到今年1月),通过TensorRT-LLM软件优化,每个Blackwell GPU在8k/1k序列长度下的Token吞吐量提升高达2.8倍 [17] 英伟达GB200 NVL72系统架构与性能 - NVIDIA GB200 NVL72是一个多节点液冷机架级系统,通过第五代NVLink连接72个Blackwell GPU,提供高达1800 GB/s的双向带宽 [11] - 该架构专为稀疏MoE模型优化,支持NVFP4数据格式硬件加速,并采用解耦服务技术(Prefill与Decode操作分离)以提升效率 [12] - 在运行DeepSeek-R1时,GB200 NVL72在8K/1K及1K/1K输入/输出序列长度下均展现出行业领先的Token吞吐量与单GPU吞吐能力 [13][14][17] 英伟达HGX B200平台性能加速技术 - NVIDIA HGX B200平台由八个Blackwell GPU通过NVLink互连,在风冷环境下提供强大的DeepSeek-R1推理性能 [21] - 多Token预测技术能显著提高各种交互级别下的吞吐量,在测试的多种输入/输出序列组合中均观察到性能提升 [21][24] - 采用NVFP4数据格式能充分利用Blackwell GPU计算能力提升性能并保持精度,在相同平台上可实现更高的吞吐量与交互级别 [24][27][29] 行业背景与英伟达技术战略 - 随着AI模型处理任务日益复杂,用户与AI交互频率增加,生成的Token数量呈指数级增长,推动行业追求极高的每瓦特Token吞吐量以降低每百万Token成本 [8] - 英伟达通过在GPU、CPU、网络、软件、供电及散热方案上的深度协同设计,持续提升每瓦特Token吞吐量,并优化软件栈以挖掘现有平台更强的性能潜力 [8][30]
大模型如何泛化出多智能体推理能力?清华提出策略游戏自博弈方案MARSHAL
机器之心· 2026-01-09 12:08
文章核心观点 - 清华大学研究团队提出的MARSHAL框架,通过在多智能体策略游戏中进行自博弈强化学习,有效提升了大型语言模型在多轮、多智能体交互场景中的博弈决策与推理能力,并且该能力能够显著泛化至通用的多智能体系统,在数学竞赛和专家级问答等一般推理任务中提升整体表现 [2][7][13][19] 背景与挑战 - 尽管可验证奖励强化学习在单轮、单智能体场景中已证明价值,但在多智能体系统的多轮交互场景中应用仍处探索阶段 [5] - 将RLVR拓展至多智能体领域面临两大核心技术挑战:多轮交互的信用分配困难,以及不同智能体因高度异构性导致优势估计基准差异大、训练难以收敛 [5][7] MARSHAL方法介绍 - 框架基于Group-Relative Policy Optimization架构,提出了两项关键算法改进以应对多轮次、多智能体训练的挑战 [12] - **轮次级优势估计器**:针对信用分配问题,摒弃粗糙的轨迹级评估,引入精细的轮次级奖励机制,并采用“先求累计和再归一化”方法进行稳定优势计算 [14] - **分角色的优势归一化**:针对角色异构性,实施严格区分角色的归一化策略,根据角色不同将数据分组计算优势,以解决回报分布差异问题 [14] - 研究团队挑选了六款涵盖从简单到复杂、从竞争到合作多种类型的策略游戏用于训练和测试 [12] 核心实验 - **实验设置**:以Qwen3-4B为基线模型,在三款训练游戏中训练了专家智能体和通用智能体两种类型 [16][18] - **游戏策略能力泛化**:MARSHAL训练出的智能体在测试游戏中展现出出色的泛化性,通用智能体取得了高达**28.7%**的胜率提升,表明模型掌握了通用的博弈逻辑 [13][16] - **通用推理能力泛化**:将MARSHAL模型集成到主流多智能体框架中测试,在一般推理任务中表现显著提升 [18] - 在竞争性多智能体系统MAD中,综合表现最强的MARSHAL通用智能体在数学测试AIME准确率提升**10.0%**,在问答测试GPQA-Diamond准确率提升**7.6%** [13][19] - 在所有基准测试中平均提升**3.5%** [13] - **能力泛化领域对齐**:在竞争性系统MAD中,竞争性游戏训练的模型表现更优;在合作性系统AutoGen中,合作性游戏训练的模型表现更优 [19] - **可扩展性验证**:在扩展到8B模型的实验中,MARSHAL方法依然保持了强劲的增长势头 [20] 推理模式分析 - **定性分析**:游戏训练激发了模型两项关键的涌现能力 [22] - **角色意识**:模型能根据自身角色调整决策策略 [22] - **意图识别**:模型能在不确定信息场景中根据其他智能体的动作判断其意图 [22] - **定量分析**:失败模式分析显示,MARSHAL将**智能体间未对齐**的情况减少了**11.5%**,显著提升了跨智能体的沟通效率和理解能力 [24] 消融实验 - **自博弈 vs 固定对手**:与固定专家对手训练相比,自博弈展现出不可替代的优势,针对固定对手训练的模型容易过拟合,在测试游戏中性能急剧下降 [26][27] - **优势估计算法设计**:逐步移除核心算法组件的实验验证了MARSHAL算法设计的必要性 [28] - **轮次级优势估计**是处理长序列决策的关键 [28] - **分角色归一化**在角色回报差异大的竞争性游戏中影响巨大,而在合作游戏中影响相对较小 [28]
Agent 2.0时代来了,首批「工业级智能体」正在核心位置上岗
机器之心· 2026-01-09 12:08
AI智能体工业化趋势与效率提升 - 整个科技圈感叹AI工具带来显著效率提升,硅谷工程师表示项目完成时长被大幅压缩[2] - 行业观点认为,若在读博时就有Claude Code、Gemini和ChatGPT等工具,毕业时间可能缩短至一年[5] - 围绕AI智能体技术,全新的工作范式正在形成,开发、数据分析等领域的工作流程已被AI彻底改变[5] 阿里云百炼平台升级概览 - 阿里云百炼在1月7日的发布中,完成了面向智能体开发范式的全面升级,标志着智能体从“手工作坊”时代进入“工业化流水线”时代[6] - 平台升级了“1+2+N”蓝图:底层是模型与云服务,中间层是高代码与低代码开发范式,上层是面向不同任务的开发组件,覆盖生产级智能体构建全生命周期[6] 开发组件与低门槛应用 - 百炼应用广场已出现超过10类聚合主题,包含146个开箱即用模板(如子弹时间特效、会议图文纪要、AI换装等)[10] - 模板在支持即开即用、二次开发基础上,进一步升级支持免登录体验、一键API调用,降低上手门槛[10] - 升级多模态知识库RAG能力,支持文档、图片、音频、视频等数十种文件类型的高精度解析与语义检索[12] - 提供Connector企业级数据连接器,能一键对接钉钉、飞书、语雀等文档系统,以及MySQL、OSS等数据库,通过数十种内置工具让智能体安全检索调用企业内部实时数据[15] 智能体开发框架与架构演进 - 百炼平台提供双模式开发能力,首次实现高代码与低代码并行,使用统一的开发框架和运行时[23] - 专业开发者可用高代码框架灵活定制智能体逻辑,业务人员可通过低代码界面快速配置模型、提示词、知识库与工具,可视化搭建智能体[23] - 两种方式构建的智能体未来将支持双向导出与部署,低代码成果可转换成高代码[25] - 智能体应用能力已升级至Agent 2.0架构,从底层重塑开发逻辑,完成从“简单对话”向“目标导向的自主执行”升级[25] - Agent 2.0引入“规划-执行-反思”链路,实现AI从意图理解到自我优化的全流程可视化[26] - 技术底座AgentScope提供模型能力集成、多智能体编排、智能上下文管理和工具管理四大核心功能[27] 模型服务与云基础设施 - 百炼模型广场已有130余款模型,新增包括Qwen-Image-Max、GLM-4.7、Wan2.6视频生成系列、Qwen3-ASR-Flash多语种识别等[35] - 提供模型单元独占部署选项,为高并发、低延迟业务提供专属算力,相比自建集群使用vLLM、SGLang等开源推理引擎,可实现超过1.3倍的推理能力提升,以及1.5倍以上的并发能力提升[36] - 提供全链路的可观测体系,支持调用审计、推理日志、全周期用量统计与多维度性能指标集成[36] - 提供基于通义全系列模型的原生训练微调能力,支持全阶段Checkpoint、混合数据训练与GRPO/GSPO强化学习算法,实现评测驱动的训练迭代[36] - 机密推理服务基于CPU/GPU TEE可信执行环境,提供高安全等级的模型推理能力[37] 成本优化与任务执行能力 - 面向大模型推理、长视频生成等耗时任务,推出异步调用API,打破同步接口调用5分钟的超时限制,可延长到超过24小时[18] - 结合实时、闲时资源请求动态调度能力,系统可实现任务动态启停,满足不同推理需求[18] - 闲时调度能让AI的推理成本降低50%以上[19] 企业级部署与行业应用 - 发布Agent平台企业版,支持智能体在专有云、本地化与VPC的开发与部署[40] - 新增通用型智能体平台Alias构建数字化助手,AgentZoo提供金融、数据科学、语音、问答等领域的智能体应用[31] - 平台升级让智能体构建变得严谨可靠、可持续迭代,同时降低开发门槛,使新技术能进入更多行业[43]
谁家更新日志那么长啊?Claude Code版本更新引围观,1096次提交一口气上线
机器之心· 2026-01-09 12:08
Claude Code 2.1.0版本更新概览 - 核心观点:Claude Code近期进行了从2.0.76到2.1.0的重大版本更新,更新内容异常丰富,引发了开发者社区的广泛关注和讨论[1][4] - 更新规模巨大:此次版本更新共合入了1096个提交,更新日志需要翻好几屏才能看完[2][10] - 社区反应:快速的更新节奏让网友感到惊讶,有人调侃“照这个速度,我们周五早上就能用上新操作系统了”,并建议团队采用滚动发布模式[4][5] 主要新增功能与优化 - 核心功能增强:包括开箱即用的Shift+Enter换行、在agents和skills的前置配置中直接添加钩子、以及支持分叉上下文、热重载和自定义代理的Skills增强[10] - Agent行为与多语言支持:优化了Agent行为,使其在拒绝使用某个工具后不会停止,而是尝试其他方案;增加了可配置模型以指定语言回复的功能[14] - 工具与会话管理:支持工具权限通配符匹配;新增了使用`/teleport`命令将会话转移到claude.ai/code的功能[14] 快速迭代与后续更新 - 持续快速发布:在2.1.0版本发布后,团队又迅速推出了2.1.1和2.1.2版本,修复了bug和安全问题,并增加了一些小改进,呈现“一天一波新发布”的节奏[17] - 后续更新细节:2.1.2版本包含了22项CLI、2项flag和1项提示变更,具体包括为拖拽到终端的图像添加源路径元数据、在支持OSC 8的终端中为工具输出的文件路径添加可点击超链接、支持Windows Package Manager安装、新增计划模式下的Shift+Tab快捷键以快速选择“自动接受编辑”选项等[18] - 问题修复:修复了bash命令处理中的命令注入漏洞、tree-sitter解析树未释放导致WASM内存泄漏的问题,以及在使用`@include`指令时意外将二进制文件包含到内存中的问题[18] 开发方法论与生产力 - 内部深度使用:公司坚持将Claude Code作为内部真正的生产力工具,包括研发模型在内的所有员工都是其重度用户,这有助于快速发现bug并在产品和模型层面进行改进[21] - AI驱动的高效开发:开发负责人Boris Cherny曾提到,在之前的一个月,他提交了259个PR,包含497次提交、4万行代码增加和3.8万行删除,所有这些代码均由AI编写[19] - 开发者反馈:尽管更新频繁且功能丰富,但也有开发者指出更新多但bug也多,且许多新功能不够简洁[21]