Claude Agent SDK
搜索文档
How the New York Stock Exchange deploys Anthropic's Claude
American Banker· 2026-02-26 01:49
纽约证券交易所的AI应用战略 - 纽约证券交易所正在快速推进其智能体AI项目,并在整个组织内广泛使用Anthropic的Claude生成式与智能体AI [1] - 交易所首席技术官表示,18个月前AI更多是聊天界面,用于代码补全,而现在其具备智能体票证推理能力,更加独立,更像一个协作者而非助手,这标志着人们使用AI方式的根本性转变 [2] - 交易所预计到2026年,随着内部采用率增长以及从实验转向生产并扩大规模,AI将成为巨大的加速器 [3] AI在金融行业的应用趋势 - 行业分析师指出,大型金融机构正从将AI作为工作流程中单一环节的点解决方案,转向将AI嵌入核心应用,如数字银行平台、支付处理系统、信贷承销引擎和欺诈检测平台 [4] - 尽管大多数金融机构仍在努力优化运营,但先行者正越来越多地利用AI来重塑机构本身 [4] - 专家认为,所有机构都必须进行AI实验,没有行业能承担落后采用者的代价,因为这关乎竞争优势或竞争必要性 [5] Claude AI的具体应用场景 - 纽约证券交易所正在重构其开发流程,使用Claude进行编码、编写测试和记录新代码 [6] - 软件开发正从“能买则买,必须则建”的模式,转变为结合多种模型、供应商、平台、数据和内部能力的“组装”模式,组装能力成为关键 [6] - 交易所团队使用Claude代码为其与Digital Asset Holdings共同开发的基于区块链的结算账本构建了参考实现,旨在实现美国上市股票和ETF的7x24小时即时结算 [7] - Claude模型在处理大型文档和应用规则方面表现有效,已被用于构建审核代理文件、审计美国证券交易委员会文件以及生成新闻分类的智能体 [8] 大规模应用下的治理与系统考量 - 纽约证券交易所在高峰交易日处理超过1万亿条消息,在此规模下,系统弹性和确定性至关重要 [9] - 使用AI开发软件带来了更多的问责要求,传统确定性平台的开发模式是编写代码需求并构建,而AI是概率性的,问责制在项目上线后并未结束,需要每日监控行为与结果 [10] - 部署AI时,数据至关重要,必须关注数据质量,否则无论软件多么先进,输出结果都难以保证 [11] - 部署AI需要像指挥家而非程序员一样进行系统思考,必须退一步审视整个系统的性能,而不仅仅是单个组件,因为无法窥探大语言模型内部的运作机制 [12] - 必须始终保持人在回路中,比以往任何时候都更仔细地审查结果,并融入足够的安全与伦理考量 [13]
美股异动丨财捷盘前涨超6%,与Anthropic达成多年合作伙伴关系
格隆汇· 2026-02-24 21:51
公司与合作伙伴动态 - 财捷与人工智能公司Anthropic达成多年合作伙伴关系 [1] - 合作旨在为中端市场企业带来可定制的AI代理 [1] - 合作将在Anthropic平台上扩展金融工具 [1] 合作具体内容与产品 - 合作将使企业能够在财捷集团平台上使用Anthropic的Claude Agent SDK构建和定制AI代理 [1] - 所构建的AI代理被描述为安全且准确 [1] - AI代理将用于支持合规工作流程 [1] 市场反应 - 消息公布后,财捷(INTU.US)盘前股价上涨超过6% [1] - 盘前股价报381.3美元 [1]
懂了很多道理,AI 依然要发疯
36氪· 2026-02-09 14:50
文章核心观点 - Anthropic的研究论文《The Hot Mess of AI》揭示了当前以Transformer为基础的自回归大模型在追求AGI(通用人工智能)过程中存在一个根本性缺陷:随着模型规模增大和任务链条变长,模型错误的主要来源从“偏差”(系统性错误)转向了“方差”(随机性错误),导致其行为不可预测且混乱,这被称为“不连贯性”问题[1][7][19][30] - 该问题被归结为自回归模型作为“动力系统”的本质与执行长程任务所需的“优化器”行为之间存在根本冲突,现有技术路径难以根除这种内在的混乱,对当前依赖扩大模型规模的Scaling Law路线构成了直接冲击[20][23][24][40] - 尽管前景严峻,但研究也指出了潜在的缓解路径,包括集成方法、系统2推理以及超越Token的新范式,为行业未来的研发方向提供了线索[33][36][37] 当前AI Agent的困境与核心问题 - 应用层AI Agent在处理真实世界长程任务时不可靠,严重依赖“Skill”等人为辅助[1] - 困境主要源于两个原因:一是模型无法吃透复杂上下文(“上下文的黑洞”),二是随着规划步长增加,模型表现急剧恶化(“长期规划的崩塌”)[1] - 自回归模型(如Transformer)存在“阿喀琉斯之踵”,其核心问题在于长程任务中的错误性质发生了改变[1][7] 研究发现的实证证据:能力与混乱并存 - 研究通过“偏差-方差分解”量化模型错误来源,引入核心指标“不连贯性”,即总错误中由“方差”导致的比例,用以区分模型是因“笨”(高偏差)还是因“疯”(高方差)而犯错[8][9][13] - 实验发现,任务越长,AI越“疯”:在GPQA(科学问答)和SWE-bench(编程)任务中,随着推理链或行动步骤增加,不连贯性直线上升,错误来源从偏差主导变为方差主导[13][14] - 模型规模越大,在最困难任务上的不连贯性反而上升:例如Qwen3模型家族,在简单任务上规模越大越稳定,但在最难任务组中,随着参数量增加,偏差下降快(更聪明),但方差下降慢(更混乱),导致错误更多由随机选择引起[15][17] - 研究发现,推理长度增加带来的混乱(熵增),需要模型规模扩大好几个数量级才能抵消,导致Scaling Law在此失效,单纯扩大模型规模性价比极低且无法消除内在随机性[17][19] 问题的根源:自回归架构的原罪 - 问题的本质是“动力系统”与“优化器”的冲突:自回归模型是一个可以发散、循环的动力系统,而执行目标导向任务的Agent需要是一个行为被目标严格锁定的优化器[20][23] - 数学上,在所有动力系统的集合中,能表现得像固定损失函数优化器的子集,其测度为零,这意味着让自回归模型干优化器的活儿可能性无限接近于零[23] - 即使专门为成为优化器而训练自回归模型,模型规模的扩大也只能提升认知准确性(降低偏差),而无法让行动更稳定(降低方差)[23] - 当模型规模变大时,其内部状态空间呈指数级膨胀,可能性增多,每一步预测的微小随机扰动在长链条推理中被不断放大,导致混乱[24] - 现有的后训练技术(如RLHF/思维链)虽然提升了准确率,但并未改变底层动力学特征,未能降低最困难任务上的不连贯性[27] - 方差具有累积性,长程任务中第一步的微小走神,经过多步推理放大后可能导致结果南辕北辙[29] 对行业未来发展的影响与预测 - 此问题是自回归架构的“内源性疾病”,无论投入多少数据和算力都难以根除,直接冲击了当前通往AGI的路线图[30] - 未来的AI失败图景可能更像“工业事故”而非有预谋的背叛:模型平时完美,一旦出错将是完全不可预测、不可复现的“发疯”,源于混乱而非恶意[30][31][32] - 这警示行业,AGI的终极挑战或许不在于让模型变得更聪明,而在于确保其在漫长的思考和行动中能始终保持连贯和清醒[40] 论文指出的潜在解决方案与研究方向 - **集成方法**:让模型对同一问题多次推理并集成结果,是降低不连贯性最有效的手段,方差随集成样本数量增加以1/样本数的速度下降,这解释了当前Coding Agent通过运行-测试-修正的ReAct循环实现稳定表现的原因[33][34] - **系统2推理**:增加推理预算(如进行大量思维链推导)能稍微降低不连贯性,对应了OpenAI o1的路线,但需注意模型自发长考时方差可能飙升,因此需要结构化的思维过程或更强的纠错模式[36] - **超越Token的新范式**:呼吁在更高抽象层级进行规划,例如基于高维概念或目标表征(如Meta提出的Large Concept Model或世界模型),而非基于容易出错的离散Token,以在长程任务中保持连贯[37][38][39] - **工程绕行方案**:通过沙箱环境让模型“发疯”,严格控制实际产生效果的输出,例如Anthropic在Claude Agent SDK中采用的方法[35]
怎么做 Long-running Agents,Cursor、Anthropic 给了两种截然不同的思路
Founder Park· 2026-01-20 23:00
文章核心观点 当前AI Agent在独立、短时任务上表现良好,但执行复杂、长时任务仍面临挑战。Cursor和Anthropic分别提出了不同的工程实践方案:Cursor通过大规模并行运行多个具有角色分工的Agent来扩展项目规模;Anthropic则专注于解决单个Agent在跨越多个工作周期时的记忆连续性问题,通过双Agent方案和严格的工作流程来推进长时任务[3][4][27][29]。 Cursor的“多Agent并行协作”方案 - **目标与挑战**:旨在通过大规模并行运行成百上千个Agent来处理复杂、长时任务,如从零构建软件。核心挑战在于如何有效协调这些Agent,处理超过一百万行代码和数以万亿计的Token[8]。 - **协调机制的演进**: - **第一次尝试(扁平化协作与锁定机制)**:构建了完全扁平化的系统,Agent通过共享文件协调。但该方案失败,因锁机制导致吞吐量骤降(20个Agent仅相当于两三个的效率),系统脆弱,易因Agent崩溃或协调文件冲突而瘫痪[9][10][11]。 - **第二次尝试(乐观并发控制)**:采用乐观并发控制机制,Agent自由读取、认领任务并短暂锁定。此方案更稳健,但暴露了群体性“风险规避”问题,Agent倾向于执行细小任务,导致项目核心进展停滞[12][13][14]。 - **最终方案:引入角色分工的流水线体系**:摒弃扁平化结构,设立三个核心角色: - **规划者**:类似架构师,持续探索代码库、理解需求并派生任务,规划过程可并行化[21]。 - **工作者**:主力工程师,纯粹执行从任务池领取的单一任务,无需全局协调[21]。 - **裁判**:类似项目经理,定期评估进展并决定是否进入下一轮迭代[21]。 该体系解决了协调难题,能将项目规模扩展到前所未有的程度[15]。 - **实验验证与成果**: - **从零构建网页浏览器**:Agent团队运行近一周,在1,000个独立文件中编写了超过100万行代码,成功构建出基础浏览器。数百个工作者可同时向同一分支提交代码且冲突率极低[16][17]。 - **大型代码库原地迁移**:将大型项目前端框架从Solid迁移到React,耗时三周多,产生+266,000行新增和-193,000行删除的代码变更,并通过了持续集成系统检查[19][22]。 - **产品性能与功能优化**:Agent用Rust重写视频渲染模块,将渲染速度提升25倍,并增加了平滑缩放等新功能。该代码已被合并至主干即将上线[23]。 - **经验与教训**: - **模型选择至关重要**:GPT-5.2在长时间自主工作中表现更佳,能更好遵循指令、保持专注。不同模型擅长不同角色,例如GPT-5.2是比专门优化的GPT-5.1-Codex更优秀的规划者[24]。 - **简化系统设计**:许多改进源于“做减法”,例如移除了制造瓶颈的“集成者”角色。最好的系统往往比想象的更简单[24][25]。 - **结构需恰到好处**:结构太松散会导致冲突与偏离,太严密则系统脆弱。系统的绝大部分行为取决于prompt的精心编写[26]。 - **仍需进一步探索**:多Agent协调仍是难题,系统未达最优。例如,规划者应能自动唤醒,Agent存在运行时间过长问题,仍需定期重启以对抗目标偏离[26]。 Anthropic的“解决单个Agent记忆连续性”方案 - **核心思路**:专注于解决单个Agent在跨越多个有限上下文窗口工作时的“记忆连续性”问题,通过引入类似人类团队的分工协作机制,将复杂任务拆解并确保清晰交接[27][29][31]。 - **Agent在长任务中的主要问题**: - **一口气干太多**:试图一次性完成整个应用(如克隆claude.ai),导致代码混乱,给后续会话留下难以接手的半成品[33]。 - **过早宣布胜利**:项目仅完成一部分便停止工作[33]。 - **测试敷衍**:仅运行基础测试,未进行真实的端到端流程验证[33]。 这些问题的共同点是Agent缺乏全局目标认知和清晰的交接机制[30]。 - **双Agent方案设计**: - **第一步:初始化Agent**:仅在项目启动时运行,负责搭建完整的初始环境。其关键任务是将用户提示扩展为结构化的功能需求清单(JSON格式),例如在克隆claude.ai的示例中生成了超过200个功能描述。所有功能初始标记为“failing”,为后续工作提供清晰路线图[34][35][36][37][38]。 - **第二步:编码Agent**:在后续会话中接手工作,严格遵循“渐进式推进”原则,每次只完成一个功能并确保环境处于“干净状态”。其标准工作流程为:1) 理解现状(阅读进度文件和Git日志);2) 选择单一任务;3) 专注实现;4) 留下痕迹(提交代码并更新进度文件)[34][39][40][41]。 - **测试环节的改进**:为解决测试敷衍问题,为Agent配备浏览器自动化工具(如Puppeteer MCP),要求其像真实用户一样操作页面进行端到端验证。该方法大幅提升了功能验证的准确率,使Agent能自行定位和修复许多仅看代码无法发现的Bug[42][43][44][45][46]。 - **Agent“开工”标准流程**:每个编码Agent会话开始时,会按固定流程熟悉环境:运行pwd确认目录、阅读Git日志和进度文件、阅读功能清单、运行init.sh脚本启动服务器并运行基础测试,确保环境正常后再开始新工作[47][48][49][50]。 - **开放性问题**:未来是发展全能Agent还是由测试、质检等专家Agent组成的多Agent团队?当前为Web开发优化的方法能否推广到科学研究、金融建模等其他领域[53]。
今年让AI可靠地抢走你的活儿?Anthropic 首席产品官曝新年目标:大模型不拼 “更聪明”,终结“公司上AI,员工更累”尴尬
AI前线· 2026-01-03 13:33
行业竞争格局与Anthropic的崛起 - 2025年智能体全面爆发,编码领域成为核心突破点,其中Anthropic的Claude Code表现尤为突出 [2] - 根据YC最新数据,Anthropic的模型份额突破52%,正式超越长期霸主OpenAI [2] - 2024年到2025年初,Anthropic的份额大多维持在25%左右,但在过去3到6个月中实现了“曲棍球棒”式的陡峭增长 [2] - 份额转变的核心驱动力在于Anthropic优秀的编写代码能力,使其成为许多开发人员的首选工具,并渗透到其他使用场景 [2] Anthropic的产品理念与战略方向 - 公司内部理念认为,要打造强大的AI,模型必须具备推理能力、能够进行Agent式的规划,能在很长的时间跨度内持续工作,同时还需要具备编写和运行代码的能力 [4] - 公司产品开发遵循“为指数增长而设计”的原则,产品既要贴合当下需求,又要具备自然迭代升级的潜力 [9] - 2026年产品战略的核心方向是“明确任务边界、AI自主完成细分任务并反馈”的协作模式,旨在解决“企业部署AI但员工未变高效”的问题 [3] - 下一次跃迁的关键不在于模型更聪明,而在于更高的可靠性、更好的交互方式,以及能稳定、持续把工作从人类手里接走的AI [3] Claude Code的诞生、演进与影响 - Claude Code项目最早来自公司的Labs团队,从2024年9月首个版本内部上线到12月,迅速取代了公司内部所有其他编码工具 [7][8] - 核心设计判断是模型能力会不断提升,因此决定让模型有更长的运行和发挥空间,允许它在更长的时间内自主运作 [8] - 随着模型能力提升,产品团队反而删除了部分工具框架,而不是一味地往里加,因为模型本身能做的事越来越多 [9] - Claude Code的实际应用场景远超“编码工具”的定位,用户将其用于生物信息学、SRE工具、数据科学、项目管理等领域,促使公司将底层SDK更名为Claude Agent SDK [10][11] 市场采用现状与用户行为洞察 - 当前市场仍处于早期阶段,非技术团队中的“探索型构建者”能通过与Claude高效协作解决问题,但这类应用仍依赖这类“关键人物” [12] - 用户需要时间摆脱过去形成的工作习惯,最难的是迈出使用AI工具解决实际问题的第一步 [13][14] - 许多主要通过“聊天”体验模型的人反馈有限,但深度使用模型进行构建的用户能感受到明显的代际能力跃迁 [15] - 公司内部黑客马拉松显示,许多项目将Claude Code作为底层引擎,用于非编码场景,表明其正成为一种通用的智能体基础工具 [10] 不同用户群体的差异化需求与挑战 - 对于资深软件工程师,领域发展已形成良性循环,工程师能清晰反馈模型需要改进的方向 [17][18] - 对于非技术背景的个人用户,存在“复杂度天花板”,顶尖模型需要在“帮助用户逐步提升应用复杂度”上做得更好 [18][19] - 对于企业级应用,当前重点是更注重“前期多一点投入,确保初始输出质量足够高”,让用户感受到AI确实节省了时间,而不是增加工作量 [19] - 企业开始超越“AI功能点缀”的1.0阶段,转向思考是否需要重构产品核心模块,让它更加AI原生 [21] 2026年行业趋势与企业应用展望 - 2026年的核心趋势是AI能成为业务流程中有价值的参与者,通过“人机协同”模式提升价值 [22] - 企业越来越关注“横向智能体”(伴侣智能体或协作型助手智能体)的落地,以及“重复性后台任务”的AI赋能 [20] - 2026年企业可能会迎来一个“基础设施年”,需要对流程进行全面复盘,而不仅仅是简单地部署聊天机器人 [21] - 企业面临的最大障碍之一是理想部署环境与存在遗留系统及监管要求的现实环境之间的差距 [23] - 公司2026年的核心工作方向是“分布式部署能力”,将智能能力、智能主体基础模块嵌入到企业现有工作负载中,并适配其约束条件 [23] - 2026年的愿景是实现AI能“可靠地接过你手里的活儿”,更接近“工作分工”的场景已近在眼前 [24]
Anthropic CPO:2026 企业 AI 要真干活,先跨过这道坎
36氪· 2025-12-29 11:46
文章核心观点 - 企业部署AI的主要障碍并非技术瓶颈,而在于组织自身在数据、权限、任务定义和责任划分方面的准备不足 [1][2][9] - AI的角色正从提供答案的聊天机器人,转变为能够交付完整工作结果的“智能体”或“同事” [3][5][6] - 企业需要从“问答”思维转变为“派活”思维,为AI提供清晰的任务、权限和流程,才能让其真正发挥作用 [16][18][20] AI应用范式的转变 - AI公司的发展重点从强调模型智能转向强调产品能否“真正干活” [3] - Anthropic将其产品Claude Code重新定位为Claude Agent SDK,标志着AI从代码补全工具转变为可接指令、执行流程并交付结果的“角色单位” [6] - AI在企业的应用场景已扩展至系统监控、生物研究助手、项目管理等完整工作流,而不仅仅是代码生成 [5][6] 企业部署AI面临的组织障碍 - 数据障碍:企业内部数据缺乏清晰的标签、注释和来源关系,AI无法理解和有效利用 [11][12] - 权限障碍:复杂的系统层级、审批流程和未梳理的流程入口,限制了AI获取完成任务所需的信息和权限 [13][14] - 任务定义障碍:企业习惯给出模糊指令(如“帮我做一个财报”),而非像指导新人一样明确角色、数据源、具体任务和输出格式 [18] - 责任划分障碍:企业担忧AI的问责机制,而关键在于为AI设定明确的责任边界,并确保其操作可追溯(如代码修改有记录、可审查) [20][21] 成功部署AI的关键要素 - 明确任务:为AI设定边界清晰、步骤固定的任务,例如GitHub的PR Agent固定执行代码审查、总结、建议和修改四步 [20][22] - 授予权限:确保AI拥有访问必要数据和执行操作(如读写、提交)的权限 [20][22] - 稳定流程:将AI嵌入固定的、可重复的工作路径中 [20][22] - 组织准备:企业需理清并准备好数据、权限、任务说明和责任划分,这是AI从“会干活”到“真干活”的前提 [15][23][25] 市场验证与商业潜力 - Anthropic的Claude Code工具发布半年后,年化营收突破10亿美元 [5] - 该工具的客户包括Netflix、毕马威、Spotify、欧莱雅等知名企业 [5]
Agent元年复盘:架构之争已经结束!?
自动驾驶之心· 2025-12-24 08:58
文章核心观点 - 2025年是Agent技术稳步落地的“Agent元年”,技术已就绪,爆发在局部,行业处于从技术架构探索向业务重塑过渡的中间态 [5][6][10] - Agent技术架构之争已定,收敛至以Claude Agent SDK和LangGraph的Deep Agent为代表的“通用型Agent”形态,其核心特点是主从架构(Main-Sub Agent)、自主规划、独立文件系统和上下文自动压缩 [3][57][58][59] - 构建有价值的“Deep Agent”需要满足两大特征:一是“够垂”,即具备源于行业深度实践的专业知识;二是“Long-running”,即能稳定、长时间运行并执行多步骤复杂任务 [11][12] - 将通用型Agent转化为垂类Agent的关键在于通过“Agent Skills”等优雅方式将业务知识丝滑融入,并通过分层工具调用、精细化的系统提示词工程来管理复杂度和确保稳定性 [22][41][52][62] 技术架构收敛与通用型Agent形态 - 技术架构在2025年10月后已收敛,标志是以Claude Agent SDK和LangGraph的Deep Agent为代表的架构 [57] - 收敛后的通用型Agent架构具备四大支柱:主从架构(Main-Sub Agent)、自主规划能力、独立的文件系统概念以及上下文自动压缩机制 [58][59] - 上下文自动压缩指当Token使用量达到上限(如200k)的80%时,系统会自动调用总结模型进行摘要压缩以释放空间 [59] - 分层工具调用是解决上下文拥挤的关键,例如Manus架构通过原子层、沙箱工具层和代码/包层三层设计,避免一次性灌输超100个工具导致的上下文混淆 [62][66][67] Deep Agent的核心特征与定义 - **特征一:行业性(够“垂”)**:Agent的知识和能力必须源于行业的深度实践和共识,包括业务定义的理想态、过往案例积累以及行业潜规则,其输出应达到或接近高级专家的水准 [11][12] - **特征二:Long-running(稳定性)**:包含两个关键维度,一是能长时间持续运行而不崩溃(如连续运行24小时),二是能连续、保质保量地执行涉及大量工具和API调用的多步骤复杂任务 [12] - **定义**:一个Deep Agent首先是一个Agent,其公认定义是“一个能循环运行工具以实现目标的LLM代理” [13][14] 构建Deep Agent的关键维度与方法 - **维度一:业务知识融合**:传统方法如融入Prompt或使用企业知识库(RAG)不够丝滑,Anthropic提出的“Agent Skills”提供了一种优雅解法,它通过多层级的文件系统封装指令和资源,让Agent能动态发现和加载,实现渐进式披露 [22][26][29][32] - **维度二:实现Long-running**:LangGraph的Deep Agent包提出了四大方法,包括规划、子代理、系统提示和文件系统,它们相辅相成,共同构成核心运作机制 [44][47][48][52][55] - **具体方法**: - **规划**:允许代理将复杂任务分解为步骤,跟踪进度并调整计划,以执行更长时间跨度的任务 [47] - **子代理**:用于实现上下文隔离、并行执行、专业化分工和提升Token效率,架构已收敛为由一个超强主代理按需调用子代理的模式 [48][49][50] - **系统提示**:最优秀的Agent拥有非常复杂详细的系统提示,用于定义规划标准、调用子代理的协议、工具使用规范及文件管理标准,通过提示工程承载应用复杂性 [52][53][54] - **文件系统**:用于上下文卸载、作为共享工作区、存储长期记忆以及封装可执行的技能或脚本 [53] Agent与Workflow的对比及开发范式转变 - **本质区别**:是复杂度的转移,Workflow将业务逻辑显式构建为“有向图”,而Agent将其抽象为自然语言,复杂度从“流程编排”转移到了“Prompt设计” [19] - **核心一致**:无论选择Workflow还是Agent,都在实践“Test-Time Scaling Law”,即通过良好的上下文工程,让模型消耗更多Token以换取更强的能力或更高的准确率 [20] - **开发范式**:相较于传统微调(SFT)动辄两周的周期,Agent模式跳过了耗时的数据准备,将迭代周期从“周级”压缩至“天级”,本质是通过消耗Token来换取效果的快速迭代 [74] 行业落地现状与挑战 - **验证过的成功**:如Deep Research和Claude Code已完全融入日常工作流,成为稳定可靠的生产力工具 [10] - **看不见的繁荣**:在招聘、市场营销、医疗等垂直领域,许多Agent产品早已实现百万美元营收,但由于大量业务集中在出海方向,导致国内体感不强 [10] - **核心瓶颈变化**:当前真正挑战在于“业务重塑”,即需要懂技术的一线从业者将传统SOP和行业知识解构,以Agent友好的方式沉淀为新工作流 [10] 从通用型Agent到垂类Agent的业务实践 - **升级路径**:将现有Workflow升级为Agent主要包括三步:1) 将业务文档、SOP抽象为Skills并存储在文件系统中;2) 将业务API封装为MCP服务;3) 为Main Agent和Sub Agent编写极度详细的系统提示词 [71] - **架构参考**:可模仿Claude Deep Research的主从Agent(Main-Sub Agent)Prompt架构,将复杂业务流程通过详尽的系统提示沉淀到主代理的认知体系中 [72] - **模型依赖**:这种方式的有效性高度依赖最先进的模型(如Claude 4.5、Gemini 3、GPT-5.2),若无法获得,则需降低任务复杂度进行尝试 [73]
Claude Code 豪气收购一家0收入前端公司:押注一位高中辍学创始人
AI前线· 2025-12-03 12:29
Anthropic收购Bun的交易概述 - 当地时间12月2日,Anthropic宣布收购开发者工具初创公司Bun,交易财务条款未披露[2] - 此次收购标志着Anthropic向开发者工具领域迈出了重要一步[2] - 收购决定契合Anthropic“战略且稳健”的收购原则,旨在增强技术实力并强化其在企业级AI领域的领先地位[4] 收购的战略意义与协同效应 - Anthropic将Bun视为其AI编码产品(如Claude Code、Claude Agent SDK及未来工具)的基础架构[2] - 收购后,Claude Code用户将获得更快性能、更高稳定性并解锁更多能力[2] - Bun团队加入将使Anthropic能够构建能跟上AI应用指数级扩张节奏的基础设施[4] - 对于Bun而言,加入Anthropic意味着获得长期稳定性、充足资源以及观察AI编程趋势的“前排座位”,使其能根据未来趋势塑造产品[13] Bun的产品特性与市场地位 - Bun是一个集打包器、转译器、运行时、测试运行器和包管理器于一身的JavaScript工具链,旨在成为Node.js的无缝替代品[8] - 其单文件可执行程序非常适合分发CLI工具,能解决智能体分发和运行的效率问题,因此受到AI编程工具青睐[3] - 截至2025年10月,Bun月下载量突破720万次,较上月增长25%,在GitHub上拥有超过8.2万颗星[4][12] - 已被Midjourney、Lovable、X、Tailwind等公司用于生产环境,提升开发速度与效率[4][11] Bun的发展历程与融资情况 - Bun由Jarred Sumner创建,其开发初衷是解决开发服务器热重载等待时间过长的问题[6] - v0.1.0于2022年7月发布,第一周获得2万颗GitHub Star[8] - 公司Oven先后完成由Kleiner Perkins领投的700万美元种子轮融资,以及由Khosla Ventures领投的1900万美元A轮融资,总融资额达2600万美元[8][13] - 团队规模曾扩充至14人[8] Claude Code的业务表现与Bun的关联 - Claude Code在2024年11月,即面向公众开放仅6个月后,实现了年化营收突破10亿美元的里程碑[4] - 在Claude Code的演进过程中,Bun一直是支撑其基础设施扩展的关键力量[2] - Claude Code本身是以Bun可执行文件的形式交付给数百万用户的[17] - Bun仓库中合并PR最多的GitHub用户名是一个Claude Code机器人,该机器人协助修复Bug并提交包含测试用例的PR[9] 收购背后的决策逻辑 - Bun创始人Jarred Sumner认为,在AI编程工具极大改变开发者生产方式的背景下,基础设施层变得愈发重要,加入Anthropic比走云托管的老路更有趣[12] - 经过与Claude Code团队及Anthropic竞争对手的多次交流,Jarred认为“Anthropic会赢”,押注Anthropic是更有趣的道路[12] - 尽管Bun拥有能支撑4年多的资金跑道,但加入Anthropic可以跳过探索变现模式的阶段,专注于构建最好的JavaScript工具[12] - 收购使Bun能够避免作为风投支持的初创公司苦苦探索商业模式的戏码[12] 收购后的运营承诺与规划 - Bun将保持开源,继续使用MIT协议,并在GitHub上公开构建与开发[17] - 原来的团队依旧负责Bun的开发,并将被高度活跃地维护[17] - Bun的路线图仍将专注于高性能JavaScript工具链、Node.js兼容性,并以取代Node.js成为默认的服务端JavaScript运行时为目标[17] - 团队加入Anthropic后,Bun将让Claude Code等工具变得更快、更轻量,且自身迭代速度会更快[15] - Bun计划招聘更多工程师[14] 行业与市场观点 - 有观点认为此次收购可能使Claude Code在JS开发者中的采用率提高10倍[16] - 有网友认为这是经典的人才收购,源于开源软件商业化困难及Bun独立商业模式可能行不通[16] - 另有观点指出,Bun近期发力云原生的自包含运行时,对于Claude Code这样的智能体而言,能创造让智能体在云服务中流畅操作的运行时环境,是一个明智的决定[16] - JavaScript被认为适合做智能体语言,因其拥有V8等快速稳定的沙箱引擎及TypeScript,与智能体的代码生成循环非常契合[16]
AI也能换岗了,Anthropic教智能体交接班,不怕长任务断片
36氪· 2025-12-03 10:32
文章核心观点 - Anthropic公司设计了一套创新的双智能体长时运行框架,旨在解决AI智能体因缺乏长时记忆而无法有效完成持续数小时复杂任务的固有缺陷[1][3] - 该框架通过模仿人类优秀工程师的工作习惯,利用初始化智能体和编码智能体分工协作,并结合功能清单、渐进式推进、测试与环境管理等机制,使AI能够跨越多轮对话窗口渐进式地推进项目[11][12][13] - 在开发一个claude.ai克隆网页的示例中,该框架显著提升了全栈Web应用开发的稳定性和效率,为解决长期运行智能体的“记忆缺陷”问题提供了有效方案[24] 行业技术挑战与现有问题 - AI智能体普遍存在“记忆缺陷”,即模型没有真正的长期记忆,所有判断依赖当下能看到的文本片段,一旦上下文窗口关闭或填满,记忆即被清空,这导致其无法完成需要持续数小时、跨越多轮对话的复杂工程任务[1][2] - 即使使用Claude Agent SDK这类具备上下文压缩能力的强大框架,顶级的编码模型(如Opus 4.5)在开箱即用情况下,面对跨多个上下文窗口的模糊大指令(如“做一个claude.ai的克隆网页”)时,依然难以完成可上线的Web应用[5] - 智能体在长时任务中常出现两种失败模式:一是试图一次性做太多事,导致中途耗尽上下文,留下未完成的半成品;二是在项目后期错误判断“项目已完成”,仅因扫描到部分现有成果就宣布结束[6][7] Anthropic提出的解决方案框架 - 公司设计了一个双组件智能体架构,包括**初始化智能体**和**编码智能体**。初始化智能体在第一次会话中负责搭建初始环境,生成初始化脚本、工作日志文件和初始Git提交;编码智能体则在后续会话中接手,每次只推进一小步,并为下一轮工作留下清晰信息[11] - 框架的核心突破在于利用`claude-progress.txt`工作日志文件和Git历史记录,使每次新启动的会话能在没有历史上下文的情况下快速理解当前项目状态,这一灵感来源于优秀软件工程师的日常工作习惯[12] - 该框架通过环境管理“三板斧”来确保智能体高效协作:**功能列表**、**渐进式推进**和**测试**[13] 关键实现机制与优化 - **功能列表**:初始化智能体将用户的初始提示扩展成一个完整的功能需求文件(例如在claude.ai克隆示例中生成了超过200个功能),每个功能初始标记为“failing”,以明确待办事项。研究人员要求编码智能体只能修改passes字段状态,并选用JSON格式以防止AI误删或覆盖内容[14] - **渐进式推进**:编码智能体被要求一次只做一个功能的小步骤改动,每次修改后需通过描述性信息提交到Git,并在进度文件中总结进展,以保持环境处于“干净状态”(即无显著bug、代码整洁、有清晰文档,可随时安全合并到主分支)[15][16][10] - **测试优化**:为解决Claude经常在没有充分测试的情况下将功能标记为完成的问题,研究明确要求其使用浏览器自动化工具(如Puppeteer MCP)进行端到端的用户流程测试,而非仅停留在代码层面的单元测试。这能发现许多仅从代码文本无法看出的问题,尽管在识别如原生alert弹窗等特定场景时仍存在限制[19][21][22] - **快速上手流程**:每次编码智能体启动时会执行一套标准化步骤:运行`pwd`确认工作目录、阅读Git日志和进度文件了解近期工作、阅读功能列表并选择最高优先级未完成的功能。此外,初始化智能体会编写`init.sh`脚本用于启动开发服务器和运行基本端到端测试,确保智能体在开始新功能前能判断并修复项目异常状态[23] 应用效果与未来展望 - 目前的双组件架构已显著提升了全栈Web应用开发的稳定性[24] - 该框架主要针对Web应用进行了优化,但其经验很可能同样适用于科研、金融建模等其他需要长时间运行的智能体任务[24] - 未来仍存在开放问题,例如不确定一个通用编码智能体是否足够强大,还是应该采用包含专门“测试智能体”、“质检智能体”或“代码清理智能体”的多智能体架构[24]
腾讯研究院AI速递 20251128
腾讯研究院· 2025-11-28 00:21
谷歌TPU自研芯片进展 - 谷歌TPU从2015年发展至2025年第七代TPU(代号Ironwood),成为可能撼动英伟达霸权的战略级武器[1] - TPU v7单芯片FP8算力达4.6 petaFLOPS,一个Pod集成9216颗芯片性能超42.5 exaFLOPS,采用2D/3D环面拓扑结合光路交换网络,年可用性达99.999%[1] - 谷歌垂直整合策略使其避免了昂贵的CUDA税,推理成本较GPU系统低30%-40%[1] - Meta考虑2027年在数据中心部署TPU并通过谷歌云租用算力[1] Anthropic长程Agent技术突破 - Anthropic发布针对长程Agent的双Agent架构解决方案,包括初始化Agent负责搭建环境和编码Agent负责增量进展,解决Agent跨会话工作的记忆难题[2] - 环境管理包含功能列表(200+功能点标记状态)、增量进展(Git提交和进度文件)和端到端测试(使用Puppeteer浏览器自动化)三大支柱[2] - 该方案基于Claude Agent SDK,通过让Agent像人类工程师一样在会话间保持一致进度,成功实现跨数小时甚至数天的复杂任务[2] DeepSeek数学模型创新 - DeepSeek发布基于DeepSeek-V3.2-Exp-Base的DeepSeek-Math-V2,实现IMO金牌级水平,性能优于Gemini DeepThink[3] - 创新引入自我验证数学推理框架,包含证明验证器(分0/0.5/1三档评分)、元验证(检查评语合理性)和诚实奖励机制(奖励诚实指错的模型)[3] - 在IMO-ProofBench基准的Basic子集上达到近99%高分,Putnam 2024中以扩展测试实现118/120接近满分,突破传统强化学习限制[3] AI音乐行业正版化进程 - AI音乐平台Suno与华纳音乐集团达成全球首个"正版授权AI音乐"合作框架,结束所有法律纠纷,标志AI音乐正版化里程碑[4] - Suno将在2026年推出基于高品质授权音乐训练的新模型,承诺超越现有v5模型,华纳旗下艺术家可自主选择是否授权并获得收入[4] - 免费用户未来无法下载创作音频仅能播放分享,付费用户下载功能保留但有月度额度限制[4] - Suno同时收购华纳旗下演唱会服务Songkick布局线下生态[4] 马斯克Grok 5游戏AI挑战 - 马斯克宣布Grok 5将在2026年挑战《英雄联盟》最强战队T1(由传奇选手Faker领衔),为AI戴上"纯视觉感知"和"人类级反应延迟"双重镣铐[5][6] - Grok 5或将拥有6万亿参数,作为多模态LLM通过"阅读"游戏说明和"观看"比赛视频构建世界模型,依靠逻辑推理而非暴力手速取胜[6] - 马斯克将把Grok 5的视觉-动作模型直接应用于特斯拉Optimus人形机器人,游戏团战作为现实世界的练兵场验证具身智能能力[6] 阿里开源图像生成模型 - 阿里开源6B参数图像生成模型Z-Image,包含Z-Image-Turbo(8步达到主流竞品性能)、Z-Image-Base(非蒸馏基础模型)和Z-Image-Edit(图像编辑专用版本)三个版本[7] - Z-Image-Turbo在企业级H800 GPU上实现亚秒级推理速度,可轻松运行于16G显存消费级设备,在照片级写实生成和中英双语文字渲染方面表现突出[7] - 采用可扩展单流DiT(S3-DiT)架构,将文本、视觉语义token与图像VAE token在序列维度拼接为统一输入流,最大化参数利用效率[7] 无问芯穹融资与AI基建进展 - 清华AI Infra企业无问芯穹完成近5亿元A+轮融资,由珠海科技集团、孚腾资本领投,成立2年半累计获得近15亿元融资[8] - 无穹AI云首次实现六种不同品牌芯片间交叉混合训练,算力利用率最高达97.6%,已在全国完成超25000P算力纳管,覆盖26城市53个数据中心[8] - 推出端侧全模态理解模型无穹天权(3B成本、7B内存需求达21B级智能水平)和终端推理加速引擎无穹开阳(3倍时延降低、40%能耗节省),打造Agentic Infra[8] 清华大学AI教育指导原则 - 清华大学正式发布《人工智能教育应用指导原则》,提出"主体责任""合规诚信""数据安全""审慎思辨""公平包容"五大核心原则[9] - 指导原则明确禁止将AI生成内容直接作为学业成果提交,严禁用AI代替学术训练、代写论文等行为,要求教师对AI生成教学内容负责[9] - 清华已有超390门课程融入AI教学实践,自主研发"三层解耦架构"和全功能智能体学伴"清小搭",历时两年调研全球25所高校70份指南完成制定[9] 美国创世纪AI科研计划 - 美国启动"创世纪计划"(US Genesis Mission)作为AI曼哈顿计划,目标是训练科学基础模型、打造科研智能体,让AI深度嵌入科研全流程[10] - 能源部科学事务副部长Darío Gil在《科学》杂志发表社论,强调AI价值在于生成可验证结果而非仅写摘要,需动员国家实验室、企业和顶尖大学[11] - 《自然》同期发表社论提出"神经符号AI"路径,将大模型统计学习与符号推理、规划模块组合,可能是迈向接近人类水平智能的关键[11]