Workflow
Claude Agent SDK
icon
搜索文档
怎么做 Long-running Agents,Cursor、Anthropic 给了两种截然不同的思路
Founder Park· 2026-01-20 23:00
文章核心观点 当前AI Agent在独立、短时任务上表现良好,但执行复杂、长时任务仍面临挑战。Cursor和Anthropic分别提出了不同的工程实践方案:Cursor通过大规模并行运行多个具有角色分工的Agent来扩展项目规模;Anthropic则专注于解决单个Agent在跨越多个工作周期时的记忆连续性问题,通过双Agent方案和严格的工作流程来推进长时任务[3][4][27][29]。 Cursor的“多Agent并行协作”方案 - **目标与挑战**:旨在通过大规模并行运行成百上千个Agent来处理复杂、长时任务,如从零构建软件。核心挑战在于如何有效协调这些Agent,处理超过一百万行代码和数以万亿计的Token[8]。 - **协调机制的演进**: - **第一次尝试(扁平化协作与锁定机制)**:构建了完全扁平化的系统,Agent通过共享文件协调。但该方案失败,因锁机制导致吞吐量骤降(20个Agent仅相当于两三个的效率),系统脆弱,易因Agent崩溃或协调文件冲突而瘫痪[9][10][11]。 - **第二次尝试(乐观并发控制)**:采用乐观并发控制机制,Agent自由读取、认领任务并短暂锁定。此方案更稳健,但暴露了群体性“风险规避”问题,Agent倾向于执行细小任务,导致项目核心进展停滞[12][13][14]。 - **最终方案:引入角色分工的流水线体系**:摒弃扁平化结构,设立三个核心角色: - **规划者**:类似架构师,持续探索代码库、理解需求并派生任务,规划过程可并行化[21]。 - **工作者**:主力工程师,纯粹执行从任务池领取的单一任务,无需全局协调[21]。 - **裁判**:类似项目经理,定期评估进展并决定是否进入下一轮迭代[21]。 该体系解决了协调难题,能将项目规模扩展到前所未有的程度[15]。 - **实验验证与成果**: - **从零构建网页浏览器**:Agent团队运行近一周,在1,000个独立文件中编写了超过100万行代码,成功构建出基础浏览器。数百个工作者可同时向同一分支提交代码且冲突率极低[16][17]。 - **大型代码库原地迁移**:将大型项目前端框架从Solid迁移到React,耗时三周多,产生+266,000行新增和-193,000行删除的代码变更,并通过了持续集成系统检查[19][22]。 - **产品性能与功能优化**:Agent用Rust重写视频渲染模块,将渲染速度提升25倍,并增加了平滑缩放等新功能。该代码已被合并至主干即将上线[23]。 - **经验与教训**: - **模型选择至关重要**:GPT-5.2在长时间自主工作中表现更佳,能更好遵循指令、保持专注。不同模型擅长不同角色,例如GPT-5.2是比专门优化的GPT-5.1-Codex更优秀的规划者[24]。 - **简化系统设计**:许多改进源于“做减法”,例如移除了制造瓶颈的“集成者”角色。最好的系统往往比想象的更简单[24][25]。 - **结构需恰到好处**:结构太松散会导致冲突与偏离,太严密则系统脆弱。系统的绝大部分行为取决于prompt的精心编写[26]。 - **仍需进一步探索**:多Agent协调仍是难题,系统未达最优。例如,规划者应能自动唤醒,Agent存在运行时间过长问题,仍需定期重启以对抗目标偏离[26]。 Anthropic的“解决单个Agent记忆连续性”方案 - **核心思路**:专注于解决单个Agent在跨越多个有限上下文窗口工作时的“记忆连续性”问题,通过引入类似人类团队的分工协作机制,将复杂任务拆解并确保清晰交接[27][29][31]。 - **Agent在长任务中的主要问题**: - **一口气干太多**:试图一次性完成整个应用(如克隆claude.ai),导致代码混乱,给后续会话留下难以接手的半成品[33]。 - **过早宣布胜利**:项目仅完成一部分便停止工作[33]。 - **测试敷衍**:仅运行基础测试,未进行真实的端到端流程验证[33]。 这些问题的共同点是Agent缺乏全局目标认知和清晰的交接机制[30]。 - **双Agent方案设计**: - **第一步:初始化Agent**:仅在项目启动时运行,负责搭建完整的初始环境。其关键任务是将用户提示扩展为结构化的功能需求清单(JSON格式),例如在克隆claude.ai的示例中生成了超过200个功能描述。所有功能初始标记为“failing”,为后续工作提供清晰路线图[34][35][36][37][38]。 - **第二步:编码Agent**:在后续会话中接手工作,严格遵循“渐进式推进”原则,每次只完成一个功能并确保环境处于“干净状态”。其标准工作流程为:1) 理解现状(阅读进度文件和Git日志);2) 选择单一任务;3) 专注实现;4) 留下痕迹(提交代码并更新进度文件)[34][39][40][41]。 - **测试环节的改进**:为解决测试敷衍问题,为Agent配备浏览器自动化工具(如Puppeteer MCP),要求其像真实用户一样操作页面进行端到端验证。该方法大幅提升了功能验证的准确率,使Agent能自行定位和修复许多仅看代码无法发现的Bug[42][43][44][45][46]。 - **Agent“开工”标准流程**:每个编码Agent会话开始时,会按固定流程熟悉环境:运行pwd确认目录、阅读Git日志和进度文件、阅读功能清单、运行init.sh脚本启动服务器并运行基础测试,确保环境正常后再开始新工作[47][48][49][50]。 - **开放性问题**:未来是发展全能Agent还是由测试、质检等专家Agent组成的多Agent团队?当前为Web开发优化的方法能否推广到科学研究、金融建模等其他领域[53]。
今年让AI可靠地抢走你的活儿?Anthropic 首席产品官曝新年目标:大模型不拼 “更聪明”,终结“公司上AI,员工更累”尴尬
AI前线· 2026-01-03 13:33
行业竞争格局与Anthropic的崛起 - 2025年智能体全面爆发,编码领域成为核心突破点,其中Anthropic的Claude Code表现尤为突出 [2] - 根据YC最新数据,Anthropic的模型份额突破52%,正式超越长期霸主OpenAI [2] - 2024年到2025年初,Anthropic的份额大多维持在25%左右,但在过去3到6个月中实现了“曲棍球棒”式的陡峭增长 [2] - 份额转变的核心驱动力在于Anthropic优秀的编写代码能力,使其成为许多开发人员的首选工具,并渗透到其他使用场景 [2] Anthropic的产品理念与战略方向 - 公司内部理念认为,要打造强大的AI,模型必须具备推理能力、能够进行Agent式的规划,能在很长的时间跨度内持续工作,同时还需要具备编写和运行代码的能力 [4] - 公司产品开发遵循“为指数增长而设计”的原则,产品既要贴合当下需求,又要具备自然迭代升级的潜力 [9] - 2026年产品战略的核心方向是“明确任务边界、AI自主完成细分任务并反馈”的协作模式,旨在解决“企业部署AI但员工未变高效”的问题 [3] - 下一次跃迁的关键不在于模型更聪明,而在于更高的可靠性、更好的交互方式,以及能稳定、持续把工作从人类手里接走的AI [3] Claude Code的诞生、演进与影响 - Claude Code项目最早来自公司的Labs团队,从2024年9月首个版本内部上线到12月,迅速取代了公司内部所有其他编码工具 [7][8] - 核心设计判断是模型能力会不断提升,因此决定让模型有更长的运行和发挥空间,允许它在更长的时间内自主运作 [8] - 随着模型能力提升,产品团队反而删除了部分工具框架,而不是一味地往里加,因为模型本身能做的事越来越多 [9] - Claude Code的实际应用场景远超“编码工具”的定位,用户将其用于生物信息学、SRE工具、数据科学、项目管理等领域,促使公司将底层SDK更名为Claude Agent SDK [10][11] 市场采用现状与用户行为洞察 - 当前市场仍处于早期阶段,非技术团队中的“探索型构建者”能通过与Claude高效协作解决问题,但这类应用仍依赖这类“关键人物” [12] - 用户需要时间摆脱过去形成的工作习惯,最难的是迈出使用AI工具解决实际问题的第一步 [13][14] - 许多主要通过“聊天”体验模型的人反馈有限,但深度使用模型进行构建的用户能感受到明显的代际能力跃迁 [15] - 公司内部黑客马拉松显示,许多项目将Claude Code作为底层引擎,用于非编码场景,表明其正成为一种通用的智能体基础工具 [10] 不同用户群体的差异化需求与挑战 - 对于资深软件工程师,领域发展已形成良性循环,工程师能清晰反馈模型需要改进的方向 [17][18] - 对于非技术背景的个人用户,存在“复杂度天花板”,顶尖模型需要在“帮助用户逐步提升应用复杂度”上做得更好 [18][19] - 对于企业级应用,当前重点是更注重“前期多一点投入,确保初始输出质量足够高”,让用户感受到AI确实节省了时间,而不是增加工作量 [19] - 企业开始超越“AI功能点缀”的1.0阶段,转向思考是否需要重构产品核心模块,让它更加AI原生 [21] 2026年行业趋势与企业应用展望 - 2026年的核心趋势是AI能成为业务流程中有价值的参与者,通过“人机协同”模式提升价值 [22] - 企业越来越关注“横向智能体”(伴侣智能体或协作型助手智能体)的落地,以及“重复性后台任务”的AI赋能 [20] - 2026年企业可能会迎来一个“基础设施年”,需要对流程进行全面复盘,而不仅仅是简单地部署聊天机器人 [21] - 企业面临的最大障碍之一是理想部署环境与存在遗留系统及监管要求的现实环境之间的差距 [23] - 公司2026年的核心工作方向是“分布式部署能力”,将智能能力、智能主体基础模块嵌入到企业现有工作负载中,并适配其约束条件 [23] - 2026年的愿景是实现AI能“可靠地接过你手里的活儿”,更接近“工作分工”的场景已近在眼前 [24]
Anthropic CPO:2026 企业 AI 要真干活,先跨过这道坎
36氪· 2025-12-29 11:46
文章核心观点 - 企业部署AI的主要障碍并非技术瓶颈,而在于组织自身在数据、权限、任务定义和责任划分方面的准备不足 [1][2][9] - AI的角色正从提供答案的聊天机器人,转变为能够交付完整工作结果的“智能体”或“同事” [3][5][6] - 企业需要从“问答”思维转变为“派活”思维,为AI提供清晰的任务、权限和流程,才能让其真正发挥作用 [16][18][20] AI应用范式的转变 - AI公司的发展重点从强调模型智能转向强调产品能否“真正干活” [3] - Anthropic将其产品Claude Code重新定位为Claude Agent SDK,标志着AI从代码补全工具转变为可接指令、执行流程并交付结果的“角色单位” [6] - AI在企业的应用场景已扩展至系统监控、生物研究助手、项目管理等完整工作流,而不仅仅是代码生成 [5][6] 企业部署AI面临的组织障碍 - 数据障碍:企业内部数据缺乏清晰的标签、注释和来源关系,AI无法理解和有效利用 [11][12] - 权限障碍:复杂的系统层级、审批流程和未梳理的流程入口,限制了AI获取完成任务所需的信息和权限 [13][14] - 任务定义障碍:企业习惯给出模糊指令(如“帮我做一个财报”),而非像指导新人一样明确角色、数据源、具体任务和输出格式 [18] - 责任划分障碍:企业担忧AI的问责机制,而关键在于为AI设定明确的责任边界,并确保其操作可追溯(如代码修改有记录、可审查) [20][21] 成功部署AI的关键要素 - 明确任务:为AI设定边界清晰、步骤固定的任务,例如GitHub的PR Agent固定执行代码审查、总结、建议和修改四步 [20][22] - 授予权限:确保AI拥有访问必要数据和执行操作(如读写、提交)的权限 [20][22] - 稳定流程:将AI嵌入固定的、可重复的工作路径中 [20][22] - 组织准备:企业需理清并准备好数据、权限、任务说明和责任划分,这是AI从“会干活”到“真干活”的前提 [15][23][25] 市场验证与商业潜力 - Anthropic的Claude Code工具发布半年后,年化营收突破10亿美元 [5] - 该工具的客户包括Netflix、毕马威、Spotify、欧莱雅等知名企业 [5]
Agent元年复盘:架构之争已经结束!?
自动驾驶之心· 2025-12-24 08:58
文章核心观点 - 2025年是Agent技术稳步落地的“Agent元年”,技术已就绪,爆发在局部,行业处于从技术架构探索向业务重塑过渡的中间态 [5][6][10] - Agent技术架构之争已定,收敛至以Claude Agent SDK和LangGraph的Deep Agent为代表的“通用型Agent”形态,其核心特点是主从架构(Main-Sub Agent)、自主规划、独立文件系统和上下文自动压缩 [3][57][58][59] - 构建有价值的“Deep Agent”需要满足两大特征:一是“够垂”,即具备源于行业深度实践的专业知识;二是“Long-running”,即能稳定、长时间运行并执行多步骤复杂任务 [11][12] - 将通用型Agent转化为垂类Agent的关键在于通过“Agent Skills”等优雅方式将业务知识丝滑融入,并通过分层工具调用、精细化的系统提示词工程来管理复杂度和确保稳定性 [22][41][52][62] 技术架构收敛与通用型Agent形态 - 技术架构在2025年10月后已收敛,标志是以Claude Agent SDK和LangGraph的Deep Agent为代表的架构 [57] - 收敛后的通用型Agent架构具备四大支柱:主从架构(Main-Sub Agent)、自主规划能力、独立的文件系统概念以及上下文自动压缩机制 [58][59] - 上下文自动压缩指当Token使用量达到上限(如200k)的80%时,系统会自动调用总结模型进行摘要压缩以释放空间 [59] - 分层工具调用是解决上下文拥挤的关键,例如Manus架构通过原子层、沙箱工具层和代码/包层三层设计,避免一次性灌输超100个工具导致的上下文混淆 [62][66][67] Deep Agent的核心特征与定义 - **特征一:行业性(够“垂”)**:Agent的知识和能力必须源于行业的深度实践和共识,包括业务定义的理想态、过往案例积累以及行业潜规则,其输出应达到或接近高级专家的水准 [11][12] - **特征二:Long-running(稳定性)**:包含两个关键维度,一是能长时间持续运行而不崩溃(如连续运行24小时),二是能连续、保质保量地执行涉及大量工具和API调用的多步骤复杂任务 [12] - **定义**:一个Deep Agent首先是一个Agent,其公认定义是“一个能循环运行工具以实现目标的LLM代理” [13][14] 构建Deep Agent的关键维度与方法 - **维度一:业务知识融合**:传统方法如融入Prompt或使用企业知识库(RAG)不够丝滑,Anthropic提出的“Agent Skills”提供了一种优雅解法,它通过多层级的文件系统封装指令和资源,让Agent能动态发现和加载,实现渐进式披露 [22][26][29][32] - **维度二:实现Long-running**:LangGraph的Deep Agent包提出了四大方法,包括规划、子代理、系统提示和文件系统,它们相辅相成,共同构成核心运作机制 [44][47][48][52][55] - **具体方法**: - **规划**:允许代理将复杂任务分解为步骤,跟踪进度并调整计划,以执行更长时间跨度的任务 [47] - **子代理**:用于实现上下文隔离、并行执行、专业化分工和提升Token效率,架构已收敛为由一个超强主代理按需调用子代理的模式 [48][49][50] - **系统提示**:最优秀的Agent拥有非常复杂详细的系统提示,用于定义规划标准、调用子代理的协议、工具使用规范及文件管理标准,通过提示工程承载应用复杂性 [52][53][54] - **文件系统**:用于上下文卸载、作为共享工作区、存储长期记忆以及封装可执行的技能或脚本 [53] Agent与Workflow的对比及开发范式转变 - **本质区别**:是复杂度的转移,Workflow将业务逻辑显式构建为“有向图”,而Agent将其抽象为自然语言,复杂度从“流程编排”转移到了“Prompt设计” [19] - **核心一致**:无论选择Workflow还是Agent,都在实践“Test-Time Scaling Law”,即通过良好的上下文工程,让模型消耗更多Token以换取更强的能力或更高的准确率 [20] - **开发范式**:相较于传统微调(SFT)动辄两周的周期,Agent模式跳过了耗时的数据准备,将迭代周期从“周级”压缩至“天级”,本质是通过消耗Token来换取效果的快速迭代 [74] 行业落地现状与挑战 - **验证过的成功**:如Deep Research和Claude Code已完全融入日常工作流,成为稳定可靠的生产力工具 [10] - **看不见的繁荣**:在招聘、市场营销、医疗等垂直领域,许多Agent产品早已实现百万美元营收,但由于大量业务集中在出海方向,导致国内体感不强 [10] - **核心瓶颈变化**:当前真正挑战在于“业务重塑”,即需要懂技术的一线从业者将传统SOP和行业知识解构,以Agent友好的方式沉淀为新工作流 [10] 从通用型Agent到垂类Agent的业务实践 - **升级路径**:将现有Workflow升级为Agent主要包括三步:1) 将业务文档、SOP抽象为Skills并存储在文件系统中;2) 将业务API封装为MCP服务;3) 为Main Agent和Sub Agent编写极度详细的系统提示词 [71] - **架构参考**:可模仿Claude Deep Research的主从Agent(Main-Sub Agent)Prompt架构,将复杂业务流程通过详尽的系统提示沉淀到主代理的认知体系中 [72] - **模型依赖**:这种方式的有效性高度依赖最先进的模型(如Claude 4.5、Gemini 3、GPT-5.2),若无法获得,则需降低任务复杂度进行尝试 [73]
Claude Code 豪气收购一家0收入前端公司:押注一位高中辍学创始人
AI前线· 2025-12-03 12:29
Anthropic收购Bun的交易概述 - 当地时间12月2日,Anthropic宣布收购开发者工具初创公司Bun,交易财务条款未披露[2] - 此次收购标志着Anthropic向开发者工具领域迈出了重要一步[2] - 收购决定契合Anthropic“战略且稳健”的收购原则,旨在增强技术实力并强化其在企业级AI领域的领先地位[4] 收购的战略意义与协同效应 - Anthropic将Bun视为其AI编码产品(如Claude Code、Claude Agent SDK及未来工具)的基础架构[2] - 收购后,Claude Code用户将获得更快性能、更高稳定性并解锁更多能力[2] - Bun团队加入将使Anthropic能够构建能跟上AI应用指数级扩张节奏的基础设施[4] - 对于Bun而言,加入Anthropic意味着获得长期稳定性、充足资源以及观察AI编程趋势的“前排座位”,使其能根据未来趋势塑造产品[13] Bun的产品特性与市场地位 - Bun是一个集打包器、转译器、运行时、测试运行器和包管理器于一身的JavaScript工具链,旨在成为Node.js的无缝替代品[8] - 其单文件可执行程序非常适合分发CLI工具,能解决智能体分发和运行的效率问题,因此受到AI编程工具青睐[3] - 截至2025年10月,Bun月下载量突破720万次,较上月增长25%,在GitHub上拥有超过8.2万颗星[4][12] - 已被Midjourney、Lovable、X、Tailwind等公司用于生产环境,提升开发速度与效率[4][11] Bun的发展历程与融资情况 - Bun由Jarred Sumner创建,其开发初衷是解决开发服务器热重载等待时间过长的问题[6] - v0.1.0于2022年7月发布,第一周获得2万颗GitHub Star[8] - 公司Oven先后完成由Kleiner Perkins领投的700万美元种子轮融资,以及由Khosla Ventures领投的1900万美元A轮融资,总融资额达2600万美元[8][13] - 团队规模曾扩充至14人[8] Claude Code的业务表现与Bun的关联 - Claude Code在2024年11月,即面向公众开放仅6个月后,实现了年化营收突破10亿美元的里程碑[4] - 在Claude Code的演进过程中,Bun一直是支撑其基础设施扩展的关键力量[2] - Claude Code本身是以Bun可执行文件的形式交付给数百万用户的[17] - Bun仓库中合并PR最多的GitHub用户名是一个Claude Code机器人,该机器人协助修复Bug并提交包含测试用例的PR[9] 收购背后的决策逻辑 - Bun创始人Jarred Sumner认为,在AI编程工具极大改变开发者生产方式的背景下,基础设施层变得愈发重要,加入Anthropic比走云托管的老路更有趣[12] - 经过与Claude Code团队及Anthropic竞争对手的多次交流,Jarred认为“Anthropic会赢”,押注Anthropic是更有趣的道路[12] - 尽管Bun拥有能支撑4年多的资金跑道,但加入Anthropic可以跳过探索变现模式的阶段,专注于构建最好的JavaScript工具[12] - 收购使Bun能够避免作为风投支持的初创公司苦苦探索商业模式的戏码[12] 收购后的运营承诺与规划 - Bun将保持开源,继续使用MIT协议,并在GitHub上公开构建与开发[17] - 原来的团队依旧负责Bun的开发,并将被高度活跃地维护[17] - Bun的路线图仍将专注于高性能JavaScript工具链、Node.js兼容性,并以取代Node.js成为默认的服务端JavaScript运行时为目标[17] - 团队加入Anthropic后,Bun将让Claude Code等工具变得更快、更轻量,且自身迭代速度会更快[15] - Bun计划招聘更多工程师[14] 行业与市场观点 - 有观点认为此次收购可能使Claude Code在JS开发者中的采用率提高10倍[16] - 有网友认为这是经典的人才收购,源于开源软件商业化困难及Bun独立商业模式可能行不通[16] - 另有观点指出,Bun近期发力云原生的自包含运行时,对于Claude Code这样的智能体而言,能创造让智能体在云服务中流畅操作的运行时环境,是一个明智的决定[16] - JavaScript被认为适合做智能体语言,因其拥有V8等快速稳定的沙箱引擎及TypeScript,与智能体的代码生成循环非常契合[16]
AI也能换岗了,Anthropic教智能体交接班,不怕长任务断片
36氪· 2025-12-03 10:32
文章核心观点 - Anthropic公司设计了一套创新的双智能体长时运行框架,旨在解决AI智能体因缺乏长时记忆而无法有效完成持续数小时复杂任务的固有缺陷[1][3] - 该框架通过模仿人类优秀工程师的工作习惯,利用初始化智能体和编码智能体分工协作,并结合功能清单、渐进式推进、测试与环境管理等机制,使AI能够跨越多轮对话窗口渐进式地推进项目[11][12][13] - 在开发一个claude.ai克隆网页的示例中,该框架显著提升了全栈Web应用开发的稳定性和效率,为解决长期运行智能体的“记忆缺陷”问题提供了有效方案[24] 行业技术挑战与现有问题 - AI智能体普遍存在“记忆缺陷”,即模型没有真正的长期记忆,所有判断依赖当下能看到的文本片段,一旦上下文窗口关闭或填满,记忆即被清空,这导致其无法完成需要持续数小时、跨越多轮对话的复杂工程任务[1][2] - 即使使用Claude Agent SDK这类具备上下文压缩能力的强大框架,顶级的编码模型(如Opus 4.5)在开箱即用情况下,面对跨多个上下文窗口的模糊大指令(如“做一个claude.ai的克隆网页”)时,依然难以完成可上线的Web应用[5] - 智能体在长时任务中常出现两种失败模式:一是试图一次性做太多事,导致中途耗尽上下文,留下未完成的半成品;二是在项目后期错误判断“项目已完成”,仅因扫描到部分现有成果就宣布结束[6][7] Anthropic提出的解决方案框架 - 公司设计了一个双组件智能体架构,包括**初始化智能体**和**编码智能体**。初始化智能体在第一次会话中负责搭建初始环境,生成初始化脚本、工作日志文件和初始Git提交;编码智能体则在后续会话中接手,每次只推进一小步,并为下一轮工作留下清晰信息[11] - 框架的核心突破在于利用`claude-progress.txt`工作日志文件和Git历史记录,使每次新启动的会话能在没有历史上下文的情况下快速理解当前项目状态,这一灵感来源于优秀软件工程师的日常工作习惯[12] - 该框架通过环境管理“三板斧”来确保智能体高效协作:**功能列表**、**渐进式推进**和**测试**[13] 关键实现机制与优化 - **功能列表**:初始化智能体将用户的初始提示扩展成一个完整的功能需求文件(例如在claude.ai克隆示例中生成了超过200个功能),每个功能初始标记为“failing”,以明确待办事项。研究人员要求编码智能体只能修改passes字段状态,并选用JSON格式以防止AI误删或覆盖内容[14] - **渐进式推进**:编码智能体被要求一次只做一个功能的小步骤改动,每次修改后需通过描述性信息提交到Git,并在进度文件中总结进展,以保持环境处于“干净状态”(即无显著bug、代码整洁、有清晰文档,可随时安全合并到主分支)[15][16][10] - **测试优化**:为解决Claude经常在没有充分测试的情况下将功能标记为完成的问题,研究明确要求其使用浏览器自动化工具(如Puppeteer MCP)进行端到端的用户流程测试,而非仅停留在代码层面的单元测试。这能发现许多仅从代码文本无法看出的问题,尽管在识别如原生alert弹窗等特定场景时仍存在限制[19][21][22] - **快速上手流程**:每次编码智能体启动时会执行一套标准化步骤:运行`pwd`确认工作目录、阅读Git日志和进度文件了解近期工作、阅读功能列表并选择最高优先级未完成的功能。此外,初始化智能体会编写`init.sh`脚本用于启动开发服务器和运行基本端到端测试,确保智能体在开始新功能前能判断并修复项目异常状态[23] 应用效果与未来展望 - 目前的双组件架构已显著提升了全栈Web应用开发的稳定性[24] - 该框架主要针对Web应用进行了优化,但其经验很可能同样适用于科研、金融建模等其他需要长时间运行的智能体任务[24] - 未来仍存在开放问题,例如不确定一个通用编码智能体是否足够强大,还是应该采用包含专门“测试智能体”、“质检智能体”或“代码清理智能体”的多智能体架构[24]
腾讯研究院AI速递 20251128
腾讯研究院· 2025-11-28 00:21
谷歌TPU自研芯片进展 - 谷歌TPU从2015年发展至2025年第七代TPU(代号Ironwood),成为可能撼动英伟达霸权的战略级武器[1] - TPU v7单芯片FP8算力达4.6 petaFLOPS,一个Pod集成9216颗芯片性能超42.5 exaFLOPS,采用2D/3D环面拓扑结合光路交换网络,年可用性达99.999%[1] - 谷歌垂直整合策略使其避免了昂贵的CUDA税,推理成本较GPU系统低30%-40%[1] - Meta考虑2027年在数据中心部署TPU并通过谷歌云租用算力[1] Anthropic长程Agent技术突破 - Anthropic发布针对长程Agent的双Agent架构解决方案,包括初始化Agent负责搭建环境和编码Agent负责增量进展,解决Agent跨会话工作的记忆难题[2] - 环境管理包含功能列表(200+功能点标记状态)、增量进展(Git提交和进度文件)和端到端测试(使用Puppeteer浏览器自动化)三大支柱[2] - 该方案基于Claude Agent SDK,通过让Agent像人类工程师一样在会话间保持一致进度,成功实现跨数小时甚至数天的复杂任务[2] DeepSeek数学模型创新 - DeepSeek发布基于DeepSeek-V3.2-Exp-Base的DeepSeek-Math-V2,实现IMO金牌级水平,性能优于Gemini DeepThink[3] - 创新引入自我验证数学推理框架,包含证明验证器(分0/0.5/1三档评分)、元验证(检查评语合理性)和诚实奖励机制(奖励诚实指错的模型)[3] - 在IMO-ProofBench基准的Basic子集上达到近99%高分,Putnam 2024中以扩展测试实现118/120接近满分,突破传统强化学习限制[3] AI音乐行业正版化进程 - AI音乐平台Suno与华纳音乐集团达成全球首个"正版授权AI音乐"合作框架,结束所有法律纠纷,标志AI音乐正版化里程碑[4] - Suno将在2026年推出基于高品质授权音乐训练的新模型,承诺超越现有v5模型,华纳旗下艺术家可自主选择是否授权并获得收入[4] - 免费用户未来无法下载创作音频仅能播放分享,付费用户下载功能保留但有月度额度限制[4] - Suno同时收购华纳旗下演唱会服务Songkick布局线下生态[4] 马斯克Grok 5游戏AI挑战 - 马斯克宣布Grok 5将在2026年挑战《英雄联盟》最强战队T1(由传奇选手Faker领衔),为AI戴上"纯视觉感知"和"人类级反应延迟"双重镣铐[5][6] - Grok 5或将拥有6万亿参数,作为多模态LLM通过"阅读"游戏说明和"观看"比赛视频构建世界模型,依靠逻辑推理而非暴力手速取胜[6] - 马斯克将把Grok 5的视觉-动作模型直接应用于特斯拉Optimus人形机器人,游戏团战作为现实世界的练兵场验证具身智能能力[6] 阿里开源图像生成模型 - 阿里开源6B参数图像生成模型Z-Image,包含Z-Image-Turbo(8步达到主流竞品性能)、Z-Image-Base(非蒸馏基础模型)和Z-Image-Edit(图像编辑专用版本)三个版本[7] - Z-Image-Turbo在企业级H800 GPU上实现亚秒级推理速度,可轻松运行于16G显存消费级设备,在照片级写实生成和中英双语文字渲染方面表现突出[7] - 采用可扩展单流DiT(S3-DiT)架构,将文本、视觉语义token与图像VAE token在序列维度拼接为统一输入流,最大化参数利用效率[7] 无问芯穹融资与AI基建进展 - 清华AI Infra企业无问芯穹完成近5亿元A+轮融资,由珠海科技集团、孚腾资本领投,成立2年半累计获得近15亿元融资[8] - 无穹AI云首次实现六种不同品牌芯片间交叉混合训练,算力利用率最高达97.6%,已在全国完成超25000P算力纳管,覆盖26城市53个数据中心[8] - 推出端侧全模态理解模型无穹天权(3B成本、7B内存需求达21B级智能水平)和终端推理加速引擎无穹开阳(3倍时延降低、40%能耗节省),打造Agentic Infra[8] 清华大学AI教育指导原则 - 清华大学正式发布《人工智能教育应用指导原则》,提出"主体责任""合规诚信""数据安全""审慎思辨""公平包容"五大核心原则[9] - 指导原则明确禁止将AI生成内容直接作为学业成果提交,严禁用AI代替学术训练、代写论文等行为,要求教师对AI生成教学内容负责[9] - 清华已有超390门课程融入AI教学实践,自主研发"三层解耦架构"和全功能智能体学伴"清小搭",历时两年调研全球25所高校70份指南完成制定[9] 美国创世纪AI科研计划 - 美国启动"创世纪计划"(US Genesis Mission)作为AI曼哈顿计划,目标是训练科学基础模型、打造科研智能体,让AI深度嵌入科研全流程[10] - 能源部科学事务副部长Darío Gil在《科学》杂志发表社论,强调AI价值在于生成可验证结果而非仅写摘要,需动员国家实验室、企业和顶尖大学[11] - 《自然》同期发表社论提出"神经符号AI"路径,将大模型统计学习与符号推理、规划模块组合,可能是迈向接近人类水平智能的关键[11]
6.4万star的开源智能体框架全面重构!OpenHands重大升级,叫板OpenAI和谷歌
机器之心· 2025-11-08 12:02
OpenHands V1 架构重构与核心设计原则 - OpenHands 团队正式发布新论文,宣布其广受欢迎的软件开发智能体框架已完成架构重构,推出 OpenHands Software Agent SDK,GitHub star 数量已超过 64,000 [1] - 此次重构标志着 OpenHands 从 V0 进化到 V1,旨在为原型设计、解锁新型自定义应用以及大规模可靠部署智能体提供一个实用的基础 [2] - V0 版本最初设计为单体架构,将智能体逻辑、评估和应用组合在同一个代码库中,虽利于快速原型设计,但在项目发展中暴露出沙盒僵化、可变配置庞杂以及研究与生产过度耦合等短板 [4] - V1 版本基于四项核心设计原则构建新架构,直接解决 V0 的局限性 [9] - 原则一:沙盒化应该是可选的,而非普遍适用的 V1 默认在单个进程中统一智能体和工具的执行,当需要隔离时,同一个栈可被透明地容器化,使沙盒化成为可选,在不牺牲安全性的前提下保持灵活性 [9] - 原则二:默认无状态,状态的真值来源单一 V1 将所有智能体及其组件视作在构建时即被验证的、不可变且可序列化的 Pydantic 模型,唯一可变实体是会话状态,作为单一明确定义的真值来源,实现确定性重放、强一致性和稳定的长期恢复 [10] - 原则三:保持严格的相关项分离 V1 将智能体核心隔离成"软件工程 SDK",应用通过 SDK API 进行集成,使得研究可以独立于应用演进 [11] - 原则四:一切都应是可组合且可安全扩展的 V1 将可组合性作为首要设计目标,在部署层面,四个模块化包可以灵活组合以支持本地、托管或容器化执行;在能力层面,SDK 暴露类型化的组件模型,让开发人员可以声明式地扩展或重新配置智能体而无需触及核心 [12][13][14] OpenHands V1 生态系统与核心功能 - OpenHands V1 是一个完整的软件智能体生态系统,包括 CLI 和 GUI 应用,它们构建在共享的基础 OpenHands Software Agent SDK 之上 [16] - SDK 定义了具有确定性重放功能的事件溯源状态模型、用于智能体的不可变配置以及集成了 MCP 的类型化工具系统 [18] - 工作区抽象使得同一个智能体能够在本地运行以进行原型设计,或者在安全、容器化的环境中远程运行,而只需最少的代码更改 [18] - 与仅提供库的 SDK 不同,OpenHands 包含用于远程执行的内置 REST/WebSocket 服务器,以及一套用于人工审查和控制的交互式工作区界面,包括基于浏览器的 VSCode IDE、VNC 桌面和持久化的 Chromium 浏览器 [20] - SDK 独特地集成了原生沙盒化执行、生命周期控制、模型无关的多 LLM 路由以及内置的安全分析 [5] - 在灵活性方面,设计了一个简洁接口,默认情况下仅需几行代码即可实现智能体,但又易于扩展为具有自定义工具、内存管理等功能的复杂智能体 [5] - 在安全性和可靠性方面,提供了无缝的本地到远程执行可移植性、集成的 REST/WebSocket 服务 [5] - 为了与人类用户交互,可以直接连接到各种界面,如可视化工作区、命令行界面和 API [5] 竞争优势与特性比较 - 团队系统比较了其 SDK 与 OpenAI Agents SDK、Claude Agent SDK 和 Google ADK 的 31 个特性,发现 OpenHands SDK 独特地结合了 16 个额外特性 [21] - 独特特性包括原生远程执行、带沙盒功能的生产服务器,以及跨越 100+ 供应商的模型无关的多 LLM 路由 [21] - 具体优势特性包括:支持 MCP、自定义工具、历史持久化与恢复、子智能体委托、模型无关性(支持 100+ LLMs)、多 LLM 路由、会话成本与令牌追踪、暂停/恢复智能体执行、原生支持非函数调用模型、智能体操作安全分析器、操作确认策略、上下文文件支持、智能体技能、上下文浓缩、TODO 列表规划器、基于 Tmux 的交互式 Bash 终端、自动生成对话标题、带自动掩码的密钥管理、智能体卡顿检测、跨会话长期记忆等 [21] - 生产服务器特性方面,具备内置 REST+WebSocket 服务器、基于会话的身份验证、内置远程智能体执行、智能体环境沙盒化、用于智能体工作区的 VNC 桌面、VSCode Web 和内置 Chromium 浏览器 [21] 可靠性与性能评估体系 - 团队通过两个互补的过程评估 OpenHands Agent SDK 的可靠性和性能:持续测试和基准评估 [24] - 持续测试流程结合了程序化测试和基于 LLM 的测试,在每个拉取请求上自动运行且每天运行一次,检查 SDK 在多种语言模型下是否表现一致,每次完整运行成本仅为 0.5–3 美元,并能在 5 分钟内完成 [24] - 基准评估在标准化的智能体任务上衡量 SDK 的整体能力,帮助了解模型质量和系统性能 [25] - SDK 采用三层测试策略平衡覆盖范围、成本和深度:程序化测试在每次提交时运行,模拟 LLM 调用并在几秒钟内验证核心逻辑、数据流和 API 协定 [31] - 基于 LLM 的测试包括集成测试和示例测试,每天执行并可按需为拉取请求执行,使用真实模型验证推理、工具调用和环境稳定性,每次运行成本为 0.5–3 美元,在 5 分钟内完成 [31] - 集成测试覆盖多种基于场景的工作流,示例测试定期运行所有 SDK 示例以确保端到端的可靠性,测试套件会随着新智能体行为和故障模式的发现而不断扩展 [26] - 基准评估是按需进行的高成本评估,每次运行成本 100–1000 美元,耗时数小时,用于衡量学术数据集上的综合智能体能力 [31] 基准测试表现与竞争力 - 在软件工程基准 SWE-Bench Verified 上,SDK 使用 Claude Sonnet 4.5 配合扩展思维实现了 72.8% 的解决率 [29] - 在通用智能体基准 GAIA 上,SDK 使用 Claude Sonnet 4.5 实现了 67.9% 的准确率,展现了有效的多步推理和工具使用能力 [29] - 其他模型表现对比:在 SWE-Bench 上,Claude Sonnet 4 达到 68.0%,GPT-5 达到 68.8%,Qwen3 Coder 480B 达到 65.2%;在 GAIA 上,Claude Sonnet 4 达到 57.6%,GPT-5 达到 62.4%,Qwen3 Coder 480B 达到 41.2% [29] - 强大的开源编码模型 Qwen3 Coder 480B 实现了 41.2% 的分数,这些结果略优于 OpenHands-Versa 的结果,表明该 SDK 的架构并未牺牲智能体能力,并实现了与研究专精系统相媲美的性能 [30]
Anthropic and Google Negotiating Multibillion-Dollar Computing Partnership
PYMNTS.com· 2025-10-22 22:40
潜在云计算合作协议 - Anthropic与谷歌就一项价值高达数百亿美元的云计算协议进行早期讨论[1] - 该协议将使Anthropic获得谷歌张量处理单元的使用权 这些定制芯片旨在加速机器学习[1] - 谈判处于初步阶段 但突显了获取专有计算基础设施已成为AI竞争中的决定性优势[1] 现有合作与市场影响 - 谷歌目前已向Anthropic投资约30亿美元 并是其关键云服务提供商之一[3] - 更大规模的交易可能扩展谷歌在生成式AI基础设施市场的覆盖范围 该市场中计算能力和芯片可用性决定谁能训练和部署最先进模型[3] - 云巨头和AI开发者正越来越多地锁定长期供应协议以管理对高性能硬件的需求[3] Anthropic的公司发展与战略 - Anthropic近期融资130亿美元 使其估值达到1830亿美元[4] - 公司由前OpenAI研究人员于2021年创立 其Claude模型已成为企业采用的核心 为受监管行业提供多模态推理和合规工具[4] - 2025年公司推出Claude Sonnet 4.5和Claude Agent SDK 将其平台扩展到开发者工具和自动化领域 这是将Claude转变为生态系统的战略一部分[5] 产品定位与行业联盟动态 - Anthropic将其模型定位为构建AI原生应用的基础设施 而不仅仅是聊天接口[5] - SDK允许开发者将Claude的推理能力嵌入现有企业系统 而Sonnet 4.5增强了多模态理解和实时任务执行能力[5] - 微软在重新评估对OpenAI的依赖之际 正在探索与Anthropic的更深层次联系 这表明随着计算需求增长 云联盟正在发生变化[5] 多云战略与市场竞争格局 - 亚马逊已承诺向Anthropic投资高达80亿美元 并视其为自家定制AI芯片的最大用户之一[6] - 与谷歌的谈判将进一步巩固Anthropic的多云方法 确保冗余性和获取最先进芯片的途径[6] - 对谷歌而言 确保Anthropic作为长期客户可能加强其在云AI供应链中对抗亚马逊和微软的地位[6]
加量不加价,一篇说明白 Claude Sonnet 4.5 强在哪
Founder Park· 2025-09-30 11:46
产品发布与核心性能 - Anthropic发布Claude Sonnet 4.5模型,官方称之为世界上最好的编码模型 [2] - 该模型在处理复杂多步骤任务时能保持超过30小时的专注度 [2][9] - 在SWE-bench Verified评测中达到77.2%的得分,在Agentic coding with parallel test-time compute评测中达到82.0%的得分 [12] - 在OSWorld基准测试中得分达61.4%,相比四个月前Sonnet 4的42.2%得分有显著提升 [10] 定价与成本优化 - Claude Sonnet 4.5定价与Claude Sonnet 4相同,输入为3美元/百万token,输出为15美元/百万token [2] - 通过提示缓存可节省高达90%的成本,批量处理可节省50%的成本 [2] 功能与工具更新 - 在Claude Code中添加了检查点功能,可保存进度并即时回滚到之前的状态 [4] - 更新了终端界面并发布了原生VS Code扩展 [4] - 在Claude API中新增了上下文编辑功能和记忆工具 [4] - 代码执行和文件创建(电子表格、幻灯片和文档)功能已直接集成到对话中 [5] - 为Max用户提供了Claude for Chrome扩展程序 [6][13] 多领域能力表现 - 在金融分析Finance Agent评测中得分55.3%,优于GPT-5的46.9%和Gemini 2.5 Pro的29.4% [12] - 在研究生级推理GPQA Diamond评测中得分83.4% [12] - 金融、法律、医学和STEM领域的专家认为,相比旧模型,Sonnet 4.5在领域特定知识和推理方面能力显著更好 [14] 开发者工具与平台集成 - 发布面向开发者的工具Claude Agent SDK [2][30] - Sonnet 4.5已集成到Claude开发者平台、Amazon Bedrock和Google Cloud的Vertex AI中 [3] - Claude Agent SDK提供了管理内存、权限系统和协调子智能体的能力 [28][30] 实验性功能与安全特性 - 发布实验性研究预览功能"Imagine with Claude",可在五天内为Max订阅用户实时生成软件 [31][33] - 该模型是迄今为止对齐性最好的前沿模型,减少了谄媚、欺骗、权力寻求等未对齐行为 [24] - 模型在防御提示注入攻击方面取得重大进展 [24] - 根据AI安全级别3(ASL-3)保护下发布,包含针对CBRN武器相关内容的过滤器 [25]