Claude Agent SDK
搜索文档
Claude Code 豪气收购一家0收入前端公司:押注一位高中辍学创始人
AI前线· 2025-12-03 12:29
Anthropic收购Bun的交易概述 - 当地时间12月2日,Anthropic宣布收购开发者工具初创公司Bun,交易财务条款未披露[2] - 此次收购标志着Anthropic向开发者工具领域迈出了重要一步[2] - 收购决定契合Anthropic“战略且稳健”的收购原则,旨在增强技术实力并强化其在企业级AI领域的领先地位[4] 收购的战略意义与协同效应 - Anthropic将Bun视为其AI编码产品(如Claude Code、Claude Agent SDK及未来工具)的基础架构[2] - 收购后,Claude Code用户将获得更快性能、更高稳定性并解锁更多能力[2] - Bun团队加入将使Anthropic能够构建能跟上AI应用指数级扩张节奏的基础设施[4] - 对于Bun而言,加入Anthropic意味着获得长期稳定性、充足资源以及观察AI编程趋势的“前排座位”,使其能根据未来趋势塑造产品[13] Bun的产品特性与市场地位 - Bun是一个集打包器、转译器、运行时、测试运行器和包管理器于一身的JavaScript工具链,旨在成为Node.js的无缝替代品[8] - 其单文件可执行程序非常适合分发CLI工具,能解决智能体分发和运行的效率问题,因此受到AI编程工具青睐[3] - 截至2025年10月,Bun月下载量突破720万次,较上月增长25%,在GitHub上拥有超过8.2万颗星[4][12] - 已被Midjourney、Lovable、X、Tailwind等公司用于生产环境,提升开发速度与效率[4][11] Bun的发展历程与融资情况 - Bun由Jarred Sumner创建,其开发初衷是解决开发服务器热重载等待时间过长的问题[6] - v0.1.0于2022年7月发布,第一周获得2万颗GitHub Star[8] - 公司Oven先后完成由Kleiner Perkins领投的700万美元种子轮融资,以及由Khosla Ventures领投的1900万美元A轮融资,总融资额达2600万美元[8][13] - 团队规模曾扩充至14人[8] Claude Code的业务表现与Bun的关联 - Claude Code在2024年11月,即面向公众开放仅6个月后,实现了年化营收突破10亿美元的里程碑[4] - 在Claude Code的演进过程中,Bun一直是支撑其基础设施扩展的关键力量[2] - Claude Code本身是以Bun可执行文件的形式交付给数百万用户的[17] - Bun仓库中合并PR最多的GitHub用户名是一个Claude Code机器人,该机器人协助修复Bug并提交包含测试用例的PR[9] 收购背后的决策逻辑 - Bun创始人Jarred Sumner认为,在AI编程工具极大改变开发者生产方式的背景下,基础设施层变得愈发重要,加入Anthropic比走云托管的老路更有趣[12] - 经过与Claude Code团队及Anthropic竞争对手的多次交流,Jarred认为“Anthropic会赢”,押注Anthropic是更有趣的道路[12] - 尽管Bun拥有能支撑4年多的资金跑道,但加入Anthropic可以跳过探索变现模式的阶段,专注于构建最好的JavaScript工具[12] - 收购使Bun能够避免作为风投支持的初创公司苦苦探索商业模式的戏码[12] 收购后的运营承诺与规划 - Bun将保持开源,继续使用MIT协议,并在GitHub上公开构建与开发[17] - 原来的团队依旧负责Bun的开发,并将被高度活跃地维护[17] - Bun的路线图仍将专注于高性能JavaScript工具链、Node.js兼容性,并以取代Node.js成为默认的服务端JavaScript运行时为目标[17] - 团队加入Anthropic后,Bun将让Claude Code等工具变得更快、更轻量,且自身迭代速度会更快[15] - Bun计划招聘更多工程师[14] 行业与市场观点 - 有观点认为此次收购可能使Claude Code在JS开发者中的采用率提高10倍[16] - 有网友认为这是经典的人才收购,源于开源软件商业化困难及Bun独立商业模式可能行不通[16] - 另有观点指出,Bun近期发力云原生的自包含运行时,对于Claude Code这样的智能体而言,能创造让智能体在云服务中流畅操作的运行时环境,是一个明智的决定[16] - JavaScript被认为适合做智能体语言,因其拥有V8等快速稳定的沙箱引擎及TypeScript,与智能体的代码生成循环非常契合[16]
AI也能换岗了,Anthropic教智能体交接班,不怕长任务断片
36氪· 2025-12-03 10:32
如何让没有长时记忆的AI,完成持续数小时的复杂任务?Anthropic设计出一个更高效的长时智能体运行框架,让AI能够像人类工程师一样, 在跨越数小时的任务中渐进式推进。 假如你雇佣了一支24小时轮班的工程师团队,要求他们一起开发一款复杂应用。 但有一个奇怪规定:每位工程师一上班就完全忘记上一班做过什么,只能从零开始重新干。 无论他们技术多强,工作多努力,这个项目恐怕也做不成。 而这正是「长期运行智能体」在现实中遭遇的真实困境: 「上下文窗口一关,AI就失忆」。 模型没有真正的长期记忆,所有判断都依赖当下能看到的文本片段,上下文窗口一满或被关掉,就像白板被擦掉一样。 这种「记忆缺陷」,让智能体做不了长工程,一旦任务需要持续数小时、跨越多轮对话窗口时,这样的问题就会暴露出来。 由于上下文窗口有限,而大多数复杂项目无法在单一窗口完成,因此智能体必须找到一种能够跨越多轮编码会话的有效机制。 近日,Anthropic通过「偷师」人类工程师,形成了一套适用于长期运行智能体的有效框架。 https://www.anthropic.com/engineering/effective-harnesses-for-long-r ...
腾讯研究院AI速递 20251128
腾讯研究院· 2025-11-28 00:21
谷歌TPU自研芯片进展 - 谷歌TPU从2015年发展至2025年第七代TPU(代号Ironwood),成为可能撼动英伟达霸权的战略级武器[1] - TPU v7单芯片FP8算力达4.6 petaFLOPS,一个Pod集成9216颗芯片性能超42.5 exaFLOPS,采用2D/3D环面拓扑结合光路交换网络,年可用性达99.999%[1] - 谷歌垂直整合策略使其避免了昂贵的CUDA税,推理成本较GPU系统低30%-40%[1] - Meta考虑2027年在数据中心部署TPU并通过谷歌云租用算力[1] Anthropic长程Agent技术突破 - Anthropic发布针对长程Agent的双Agent架构解决方案,包括初始化Agent负责搭建环境和编码Agent负责增量进展,解决Agent跨会话工作的记忆难题[2] - 环境管理包含功能列表(200+功能点标记状态)、增量进展(Git提交和进度文件)和端到端测试(使用Puppeteer浏览器自动化)三大支柱[2] - 该方案基于Claude Agent SDK,通过让Agent像人类工程师一样在会话间保持一致进度,成功实现跨数小时甚至数天的复杂任务[2] DeepSeek数学模型创新 - DeepSeek发布基于DeepSeek-V3.2-Exp-Base的DeepSeek-Math-V2,实现IMO金牌级水平,性能优于Gemini DeepThink[3] - 创新引入自我验证数学推理框架,包含证明验证器(分0/0.5/1三档评分)、元验证(检查评语合理性)和诚实奖励机制(奖励诚实指错的模型)[3] - 在IMO-ProofBench基准的Basic子集上达到近99%高分,Putnam 2024中以扩展测试实现118/120接近满分,突破传统强化学习限制[3] AI音乐行业正版化进程 - AI音乐平台Suno与华纳音乐集团达成全球首个"正版授权AI音乐"合作框架,结束所有法律纠纷,标志AI音乐正版化里程碑[4] - Suno将在2026年推出基于高品质授权音乐训练的新模型,承诺超越现有v5模型,华纳旗下艺术家可自主选择是否授权并获得收入[4] - 免费用户未来无法下载创作音频仅能播放分享,付费用户下载功能保留但有月度额度限制[4] - Suno同时收购华纳旗下演唱会服务Songkick布局线下生态[4] 马斯克Grok 5游戏AI挑战 - 马斯克宣布Grok 5将在2026年挑战《英雄联盟》最强战队T1(由传奇选手Faker领衔),为AI戴上"纯视觉感知"和"人类级反应延迟"双重镣铐[5][6] - Grok 5或将拥有6万亿参数,作为多模态LLM通过"阅读"游戏说明和"观看"比赛视频构建世界模型,依靠逻辑推理而非暴力手速取胜[6] - 马斯克将把Grok 5的视觉-动作模型直接应用于特斯拉Optimus人形机器人,游戏团战作为现实世界的练兵场验证具身智能能力[6] 阿里开源图像生成模型 - 阿里开源6B参数图像生成模型Z-Image,包含Z-Image-Turbo(8步达到主流竞品性能)、Z-Image-Base(非蒸馏基础模型)和Z-Image-Edit(图像编辑专用版本)三个版本[7] - Z-Image-Turbo在企业级H800 GPU上实现亚秒级推理速度,可轻松运行于16G显存消费级设备,在照片级写实生成和中英双语文字渲染方面表现突出[7] - 采用可扩展单流DiT(S3-DiT)架构,将文本、视觉语义token与图像VAE token在序列维度拼接为统一输入流,最大化参数利用效率[7] 无问芯穹融资与AI基建进展 - 清华AI Infra企业无问芯穹完成近5亿元A+轮融资,由珠海科技集团、孚腾资本领投,成立2年半累计获得近15亿元融资[8] - 无穹AI云首次实现六种不同品牌芯片间交叉混合训练,算力利用率最高达97.6%,已在全国完成超25000P算力纳管,覆盖26城市53个数据中心[8] - 推出端侧全模态理解模型无穹天权(3B成本、7B内存需求达21B级智能水平)和终端推理加速引擎无穹开阳(3倍时延降低、40%能耗节省),打造Agentic Infra[8] 清华大学AI教育指导原则 - 清华大学正式发布《人工智能教育应用指导原则》,提出"主体责任""合规诚信""数据安全""审慎思辨""公平包容"五大核心原则[9] - 指导原则明确禁止将AI生成内容直接作为学业成果提交,严禁用AI代替学术训练、代写论文等行为,要求教师对AI生成教学内容负责[9] - 清华已有超390门课程融入AI教学实践,自主研发"三层解耦架构"和全功能智能体学伴"清小搭",历时两年调研全球25所高校70份指南完成制定[9] 美国创世纪AI科研计划 - 美国启动"创世纪计划"(US Genesis Mission)作为AI曼哈顿计划,目标是训练科学基础模型、打造科研智能体,让AI深度嵌入科研全流程[10] - 能源部科学事务副部长Darío Gil在《科学》杂志发表社论,强调AI价值在于生成可验证结果而非仅写摘要,需动员国家实验室、企业和顶尖大学[11] - 《自然》同期发表社论提出"神经符号AI"路径,将大模型统计学习与符号推理、规划模块组合,可能是迈向接近人类水平智能的关键[11]
6.4万star的开源智能体框架全面重构!OpenHands重大升级,叫板OpenAI和谷歌
机器之心· 2025-11-08 12:02
OpenHands V1 架构重构与核心设计原则 - OpenHands 团队正式发布新论文,宣布其广受欢迎的软件开发智能体框架已完成架构重构,推出 OpenHands Software Agent SDK,GitHub star 数量已超过 64,000 [1] - 此次重构标志着 OpenHands 从 V0 进化到 V1,旨在为原型设计、解锁新型自定义应用以及大规模可靠部署智能体提供一个实用的基础 [2] - V0 版本最初设计为单体架构,将智能体逻辑、评估和应用组合在同一个代码库中,虽利于快速原型设计,但在项目发展中暴露出沙盒僵化、可变配置庞杂以及研究与生产过度耦合等短板 [4] - V1 版本基于四项核心设计原则构建新架构,直接解决 V0 的局限性 [9] - 原则一:沙盒化应该是可选的,而非普遍适用的 V1 默认在单个进程中统一智能体和工具的执行,当需要隔离时,同一个栈可被透明地容器化,使沙盒化成为可选,在不牺牲安全性的前提下保持灵活性 [9] - 原则二:默认无状态,状态的真值来源单一 V1 将所有智能体及其组件视作在构建时即被验证的、不可变且可序列化的 Pydantic 模型,唯一可变实体是会话状态,作为单一明确定义的真值来源,实现确定性重放、强一致性和稳定的长期恢复 [10] - 原则三:保持严格的相关项分离 V1 将智能体核心隔离成"软件工程 SDK",应用通过 SDK API 进行集成,使得研究可以独立于应用演进 [11] - 原则四:一切都应是可组合且可安全扩展的 V1 将可组合性作为首要设计目标,在部署层面,四个模块化包可以灵活组合以支持本地、托管或容器化执行;在能力层面,SDK 暴露类型化的组件模型,让开发人员可以声明式地扩展或重新配置智能体而无需触及核心 [12][13][14] OpenHands V1 生态系统与核心功能 - OpenHands V1 是一个完整的软件智能体生态系统,包括 CLI 和 GUI 应用,它们构建在共享的基础 OpenHands Software Agent SDK 之上 [16] - SDK 定义了具有确定性重放功能的事件溯源状态模型、用于智能体的不可变配置以及集成了 MCP 的类型化工具系统 [18] - 工作区抽象使得同一个智能体能够在本地运行以进行原型设计,或者在安全、容器化的环境中远程运行,而只需最少的代码更改 [18] - 与仅提供库的 SDK 不同,OpenHands 包含用于远程执行的内置 REST/WebSocket 服务器,以及一套用于人工审查和控制的交互式工作区界面,包括基于浏览器的 VSCode IDE、VNC 桌面和持久化的 Chromium 浏览器 [20] - SDK 独特地集成了原生沙盒化执行、生命周期控制、模型无关的多 LLM 路由以及内置的安全分析 [5] - 在灵活性方面,设计了一个简洁接口,默认情况下仅需几行代码即可实现智能体,但又易于扩展为具有自定义工具、内存管理等功能的复杂智能体 [5] - 在安全性和可靠性方面,提供了无缝的本地到远程执行可移植性、集成的 REST/WebSocket 服务 [5] - 为了与人类用户交互,可以直接连接到各种界面,如可视化工作区、命令行界面和 API [5] 竞争优势与特性比较 - 团队系统比较了其 SDK 与 OpenAI Agents SDK、Claude Agent SDK 和 Google ADK 的 31 个特性,发现 OpenHands SDK 独特地结合了 16 个额外特性 [21] - 独特特性包括原生远程执行、带沙盒功能的生产服务器,以及跨越 100+ 供应商的模型无关的多 LLM 路由 [21] - 具体优势特性包括:支持 MCP、自定义工具、历史持久化与恢复、子智能体委托、模型无关性(支持 100+ LLMs)、多 LLM 路由、会话成本与令牌追踪、暂停/恢复智能体执行、原生支持非函数调用模型、智能体操作安全分析器、操作确认策略、上下文文件支持、智能体技能、上下文浓缩、TODO 列表规划器、基于 Tmux 的交互式 Bash 终端、自动生成对话标题、带自动掩码的密钥管理、智能体卡顿检测、跨会话长期记忆等 [21] - 生产服务器特性方面,具备内置 REST+WebSocket 服务器、基于会话的身份验证、内置远程智能体执行、智能体环境沙盒化、用于智能体工作区的 VNC 桌面、VSCode Web 和内置 Chromium 浏览器 [21] 可靠性与性能评估体系 - 团队通过两个互补的过程评估 OpenHands Agent SDK 的可靠性和性能:持续测试和基准评估 [24] - 持续测试流程结合了程序化测试和基于 LLM 的测试,在每个拉取请求上自动运行且每天运行一次,检查 SDK 在多种语言模型下是否表现一致,每次完整运行成本仅为 0.5–3 美元,并能在 5 分钟内完成 [24] - 基准评估在标准化的智能体任务上衡量 SDK 的整体能力,帮助了解模型质量和系统性能 [25] - SDK 采用三层测试策略平衡覆盖范围、成本和深度:程序化测试在每次提交时运行,模拟 LLM 调用并在几秒钟内验证核心逻辑、数据流和 API 协定 [31] - 基于 LLM 的测试包括集成测试和示例测试,每天执行并可按需为拉取请求执行,使用真实模型验证推理、工具调用和环境稳定性,每次运行成本为 0.5–3 美元,在 5 分钟内完成 [31] - 集成测试覆盖多种基于场景的工作流,示例测试定期运行所有 SDK 示例以确保端到端的可靠性,测试套件会随着新智能体行为和故障模式的发现而不断扩展 [26] - 基准评估是按需进行的高成本评估,每次运行成本 100–1000 美元,耗时数小时,用于衡量学术数据集上的综合智能体能力 [31] 基准测试表现与竞争力 - 在软件工程基准 SWE-Bench Verified 上,SDK 使用 Claude Sonnet 4.5 配合扩展思维实现了 72.8% 的解决率 [29] - 在通用智能体基准 GAIA 上,SDK 使用 Claude Sonnet 4.5 实现了 67.9% 的准确率,展现了有效的多步推理和工具使用能力 [29] - 其他模型表现对比:在 SWE-Bench 上,Claude Sonnet 4 达到 68.0%,GPT-5 达到 68.8%,Qwen3 Coder 480B 达到 65.2%;在 GAIA 上,Claude Sonnet 4 达到 57.6%,GPT-5 达到 62.4%,Qwen3 Coder 480B 达到 41.2% [29] - 强大的开源编码模型 Qwen3 Coder 480B 实现了 41.2% 的分数,这些结果略优于 OpenHands-Versa 的结果,表明该 SDK 的架构并未牺牲智能体能力,并实现了与研究专精系统相媲美的性能 [30]
Anthropic and Google Negotiating Multibillion-Dollar Computing Partnership
PYMNTS.com· 2025-10-22 22:40
潜在云计算合作协议 - Anthropic与谷歌就一项价值高达数百亿美元的云计算协议进行早期讨论[1] - 该协议将使Anthropic获得谷歌张量处理单元的使用权 这些定制芯片旨在加速机器学习[1] - 谈判处于初步阶段 但突显了获取专有计算基础设施已成为AI竞争中的决定性优势[1] 现有合作与市场影响 - 谷歌目前已向Anthropic投资约30亿美元 并是其关键云服务提供商之一[3] - 更大规模的交易可能扩展谷歌在生成式AI基础设施市场的覆盖范围 该市场中计算能力和芯片可用性决定谁能训练和部署最先进模型[3] - 云巨头和AI开发者正越来越多地锁定长期供应协议以管理对高性能硬件的需求[3] Anthropic的公司发展与战略 - Anthropic近期融资130亿美元 使其估值达到1830亿美元[4] - 公司由前OpenAI研究人员于2021年创立 其Claude模型已成为企业采用的核心 为受监管行业提供多模态推理和合规工具[4] - 2025年公司推出Claude Sonnet 4.5和Claude Agent SDK 将其平台扩展到开发者工具和自动化领域 这是将Claude转变为生态系统的战略一部分[5] 产品定位与行业联盟动态 - Anthropic将其模型定位为构建AI原生应用的基础设施 而不仅仅是聊天接口[5] - SDK允许开发者将Claude的推理能力嵌入现有企业系统 而Sonnet 4.5增强了多模态理解和实时任务执行能力[5] - 微软在重新评估对OpenAI的依赖之际 正在探索与Anthropic的更深层次联系 这表明随着计算需求增长 云联盟正在发生变化[5] 多云战略与市场竞争格局 - 亚马逊已承诺向Anthropic投资高达80亿美元 并视其为自家定制AI芯片的最大用户之一[6] - 与谷歌的谈判将进一步巩固Anthropic的多云方法 确保冗余性和获取最先进芯片的途径[6] - 对谷歌而言 确保Anthropic作为长期客户可能加强其在云AI供应链中对抗亚马逊和微软的地位[6]
加量不加价,一篇说明白 Claude Sonnet 4.5 强在哪
Founder Park· 2025-09-30 11:46
产品发布与核心性能 - Anthropic发布Claude Sonnet 4.5模型,官方称之为世界上最好的编码模型 [2] - 该模型在处理复杂多步骤任务时能保持超过30小时的专注度 [2][9] - 在SWE-bench Verified评测中达到77.2%的得分,在Agentic coding with parallel test-time compute评测中达到82.0%的得分 [12] - 在OSWorld基准测试中得分达61.4%,相比四个月前Sonnet 4的42.2%得分有显著提升 [10] 定价与成本优化 - Claude Sonnet 4.5定价与Claude Sonnet 4相同,输入为3美元/百万token,输出为15美元/百万token [2] - 通过提示缓存可节省高达90%的成本,批量处理可节省50%的成本 [2] 功能与工具更新 - 在Claude Code中添加了检查点功能,可保存进度并即时回滚到之前的状态 [4] - 更新了终端界面并发布了原生VS Code扩展 [4] - 在Claude API中新增了上下文编辑功能和记忆工具 [4] - 代码执行和文件创建(电子表格、幻灯片和文档)功能已直接集成到对话中 [5] - 为Max用户提供了Claude for Chrome扩展程序 [6][13] 多领域能力表现 - 在金融分析Finance Agent评测中得分55.3%,优于GPT-5的46.9%和Gemini 2.5 Pro的29.4% [12] - 在研究生级推理GPQA Diamond评测中得分83.4% [12] - 金融、法律、医学和STEM领域的专家认为,相比旧模型,Sonnet 4.5在领域特定知识和推理方面能力显著更好 [14] 开发者工具与平台集成 - 发布面向开发者的工具Claude Agent SDK [2][30] - Sonnet 4.5已集成到Claude开发者平台、Amazon Bedrock和Google Cloud的Vertex AI中 [3] - Claude Agent SDK提供了管理内存、权限系统和协调子智能体的能力 [28][30] 实验性功能与安全特性 - 发布实验性研究预览功能"Imagine with Claude",可在五天内为Max订阅用户实时生成软件 [31][33] - 该模型是迄今为止对齐性最好的前沿模型,减少了谄媚、欺骗、权力寻求等未对齐行为 [24] - 模型在防御提示注入攻击方面取得重大进展 [24] - 根据AI安全级别3(ASL-3)保护下发布,包含针对CBRN武器相关内容的过滤器 [25]
Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时,CEO:它更像你的同事
36氪· 2025-09-30 11:20
模型核心性能突破 - 新一代模型Claude Sonnet 4.5被定位为世界上最好的编码模型、构建复杂代理的最强大工具以及使用计算机的最佳模型[1] - 在SWE-bench Verified基准测试中准确率达77.2%,较前代提升近20个百分点,展示出卓越的真实软件编码能力[2] - 具备长周期任务处理能力,能自主运行30小时,生成1.1万行代码,完整开发出企业级应用,实现从“写代码”到“生产级交付”的跨越[2] 多领域能力显著提升 - 在计算机操作领域,OSWorld基准测试得分从42.2%跃升至61.4%,领先行业同类产品[4] - 金融、法律等专业领域推理能力较上一代Opus 4.1提升30%以上,数学问题解决精度显著优化[4] - 在金融分析(Finance Agent)测试中得分55.3%,显著高于GPT-5的46.9%和Gemini 2.5 Pro的29.4%[5] - 在Agentic tool use的电信(Telecom)场景测试中得分98.0%,远超旧版模型的49.6%和GPT-5的96.7%[5] 开发者工具与产品生态升级 - 同步推出Claude Agent SDK开发工具包,将内部开发核心基础设施对外开放,解决长期任务记忆管理、自主性与用户控制平衡等痛点[9] - 发布Claude Code 2.0,新增“检查点”功能支持代码进度保存与即时回滚,并刷新终端界面与原生VS Code扩展[8] - API能力强化,新增上下文编辑与记忆工具,使AI代理持续运行时间从7小时延长至30小时,可处理更复杂多步骤任务[8] - 应用内直接集成代码执行与文件创建功能,支持在对话中生成电子表格、幻灯片等文档,并面向Max订阅用户开放浏览器扩展[8] 安全性与可靠性增强 - 模型通过AI安全等级3(ASL-3)认证,配备化学、生物等危险内容分类检测器,误报率较初代模型降低90%[10] - 在防御即时注入攻击方面取得显著进展,大幅减少欺骗性回答、权力寻求等风险行为[10] - 公司称此为过去一年或一年半中最大的安全飞跃[13] 商业策略与行业影响 - 保持价格亲民,API调用费用与Claude Sonnet 4完全一致,为每百万代币输入3美元、输出15美元[13] - 公司推荐该模型用于“基本上所有用例”,并预计年底前可能再推出新模型[13] - 行业分析师指出,此次发布标志着AI从“辅助工具”向“独立生产力”的跨越,开放SDK举措将加速AI代理技术在各行业落地[13]
刚刚,Claude Sonnet 4.5重磅发布,编程新王降临
36氪· 2025-09-30 09:32
产品发布与核心定位 - Anthropic正式发布Claude Sonnet 4.5,并将其定义为全球最强的代码模型 [2][3] - 该版本在智能体构建、计算机使用、推理和数学能力上展现出显著突破,旨在提升现代工作中运用工具和解决复杂问题的效率与可靠性 [3][5] 性能基准测试表现 - 在SWE-bench Verified测试中达到82.0%的准确率,优于Claude Opus 4.1的79.4%、Claude Sonnet 4的80.2%以及GPT-5的74.5% [4] - 在终端编码测试Terminal-Bench中取得50.0%的准确率,显著高于Claude Sonnet 4的36.4%和GPT-5的43.8% [4] - 在计算机使用基准OSWorld测试中以61.4%的成绩位居首位,相比四个月前Sonnet 4的42.2%有大幅提升 [4][13] - 在金融分析测试Finance Agent中取得55.3%的准确率,高于Claude Opus 4.1的50.9%和GPT-5的46.9% [4] 全新功能与产品升级 - Claude Code新增“检查点”功能,支持随时保存进度和回滚,并更新了终端界面及推出原生VS Code插件 [6] - Claude API增加上下文编辑功能和记忆工具,使智能体能运行更久并处理更复杂的任务 [6] - Claude apps支持在对话中直接执行代码、生成文件(包括表格、幻灯片和文档) [6] - 向开发者社区推出Claude Agent SDK,开放驱动Claude Code的底层基础设施 [8][9] 专业用户验证与实际应用效果 - iGent AI CEO表示,Claude Sonnet 4.5能自主编程超过30小时,帮助工程师在极短时间内完成原本需数月的复杂架构工作 [22][23] - replit内部测试显示,代码错误率从Sonnet 4的9%降至0% [22] 安全性与对齐性改进 - Sonnet 4.5是迄今为止对齐性最好的Claude模型,在减少迎合、欺骗等行为方面成效明显,并特别加强了对提示注入攻击的防御 [28] - 模型按照AI Safety Level 3框架发布,包含针对化学、生物等内容的分类器过滤机制,与Sonnet 4相比误报率已降低十倍 [31] API新特性与定价 - API层面重要更新包括记忆工具、上下文编辑、新的停止原因提示及工具参数改进 [34] - 定价保持与Sonnet 4一致,输入为3美元/百万Tokens,输出为15美元/百万Tokens [35] - 模型可通过Claude API、Amazon Bedrock、Google Cloud Vertex AI及Claude.ai与Claude Code平台使用 [37] 研究预览与行业影响 - 发布临时研究预览“Imagine with Claude”,该功能可实时生成软件演示视频,向Max订阅用户开放5天 [33] - 该版本被视为编程领域的重大跃升,预计将引发新一轮AI编程大战,成为行业争相对标的新对象 [40]
Anthropic 深夜祭出 Claude Sonnet 4.5,能自主连续工作 30 小时!CEO:它更像你的同事
AI前线· 2025-09-30 09:18
模型核心性能突破 - Anthropic正式推出新一代模型Claude Sonnet 4 5,官方称其为世界上最好的编码模型、构建复杂代理的最强大工具、使用计算机的最佳模型[2] - 在SWE-bench Verified基准测试中,模型以77 2%的准确率名列前茅,较前代提升近20个百分点[4] - 模型具备长周期任务处理能力,能自主运行30小时,生成1 1万行代码,完整开发出类似钉钉的企业聊天应用,成为首个实现生产级交付的AI模型[4] - 在计算机操作领域,其OSWorld基准测试得分从四个月前的42 2%跃升至61 4%,领先行业同类产品[7] - 金融、法律等专业领域测试显示,其推理能力较上一代Opus 4 1提升30%以上,数学问题解决精度显著优化[7] - 在高中数学竞赛AIME 2025测试中达到87 0%准确率,金融分析测试达到55 3%准确率,显著优于前代及部分竞品[9] 产品生态与开发者工具 - 同步推出Claude Agent SDK开发工具包,将内部开发Claude Code的核心基础设施对外开放,解决AI代理开发中的长期任务记忆管理、自主性与用户控制平衡、多代理协同调度三大痛点[12] - Claude Code 2 0新增检查点功能,支持代码进度保存与即时回滚,配合刷新的终端界面与原生VS Code扩展,提升开发效率[13] - API新增上下文编辑与记忆工具,使AI代理持续运行时间从7小时延长至30小时,可处理更复杂多步骤任务[13] - 应用内直接集成代码执行与文件创建功能,支持在对话中生成电子表格、幻灯片等文档,并为Max订阅用户开放Chrome扩展程序下载[13] - SDK已在Canva等企业工程团队中得到验证,能显著提升代码库管理与产品研究效率[14] 安全与商业策略 - 模型通过AI安全等级3认证,配备化学、生物等危险内容分类检测器,误报率较初代模型降低90%,同时大幅减少欺骗性回答、权力寻求等风险行为[16] - 在防御即时注入攻击方面取得显著进展,而即时注入攻击是代理和计算机使用功能用户面临的最严重风险之一[16] - API调用费用与Claude Sonnet 4完全一致,为每百万代词输入3美元、输出15美元,保持价格亲民[19] - 公司推荐该模型用于基本上所有用例,并称其比Claude Opus 4 1小,但几乎在各个方面都更智能[19][21] - 行业分析师指出,此次发布标志着AI从辅助工具向独立生产力的跨越,开放SDK举措或将加速AI代理技术在各行业落地应用[21]
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码
量子位· 2025-09-30 08:57
模型性能提升 - Claude Sonnet 4.5在SWE-bench上的成绩为77.2%,比Sonnet 4的72.7%提升了1.8个百分点 [2][10] - 在OSWorld测试中取得60.2分的SOTA成绩,比Sonnet 4提升了近一半 [7][10] - 在终端编程(Terminal-Bench)测试中成绩为50.0%,显著高于Sonnet 4的36.4% [9][10] - 在高中水平数学AIME 2025试题中,借助Python可实现100%准确率,不借助工具准确率为87% [9][10] - 在金融分析(Finance Agent)测试中成绩为55.3%,高于Sonnet 4的44.5% [10] 智能体能力突破 - 能够连续工作30个小时完全自主编写代码,工作时长远超Opus 4的7小时 [3][5] - 在30小时内编写了11000多行代码,构建出类似Slack的聊天应用 [4] - 在工具使用(τ2-bench)测试中,电信领域成绩达98.0%,远高于Sonnet 4的49.6% [10] - 在专业领域(金融、医疗、法律、STEM)对战baseline模型的胜率均大幅提升,在16K上下文下超过60% [11] 安全性与实用性改进 - 通过安全训练减少了谄媚、欺骗等不良行为 [12] - 在防御即时注入攻击方面取得显著进展 [12] - 正常请求拒绝率从Sonnet 4的0.15%下降至0.02% [13] - 获得GitHub首席产品官认可,能更好地处理复杂跨代码库任务 [16] - 获得Cognition联创认可,显著提升Devin的规划能力和端到端评估成绩 [20] 产品定价与生态建设 - 保持提质不加价策略,输入token价格为3美元每百万,输出token价格为15美元每百万 [24] - 发布Claude Agent SDK,支持构建通用自主智能体,解决内存管理、权限系统等关键难题 [26][27][29] - 推出Imagine with Claude新功能,可实时生成软件原型,Max订阅用户可优先体验 [30][32][33]