Workflow
Claude Sonnet 5
icon
搜索文档
Anthropic expands in Seattle as AI boom offers hope for struggling office market
GeekWire· 2026-07-01 23:39
公司动态:Anthropic在西雅图扩张 - 人工智能公司Anthropic在西雅图签署了一项重大新租约,租赁了位于南湖联盟区Dexter Yard North北塔的113,000平方英尺办公空间[1][2] - 此次扩张显著增加了Anthropic在西雅图的业务版图,该公司于2024年在此设立了工程办公室,以利用当地丰富的人工智能研究及软件工程人才库[3] - 新办公地点紧邻亚马逊总部,两家公司于2024年4月扩大了现有合作伙伴关系,亚马逊承诺向Anthropic投资高达250亿美元,而Anthropic则承诺在未来10年内向AWS投入超过1000亿美元[3] - 2024年5月,Anthropic宣布以9650亿美元的估值完成了650亿美元的融资,这被认为是其今年晚些时候进行首次公开募股前的最后一轮风险投资[4] - 公司近期发布了Claude Sonnet 5模型,据称其规划、使用工具及自主运行的能力达到了数月前需要更大、更昂贵模型才能实现的水平[4] - 美国商务部解除了对该公司Claude Fable 5和Mythos 5模型的出口管制[4] - Anthropic在西雅图、纽约和旧金山设有多个开放的工程职位,并要求所有员工至少25%的时间在办公室办公[6] 行业趋势:人工智能公司提振写字楼市场 - 人工智能公司的需求为西雅图写字楼市场带来了复苏希望,该市场近年来因远程办公和科技行业裁员导致空置率居高不下[1][5] - 西雅图写字楼空置率在2025年第一季度微升至28%,为当地最高水平[5] - 除Anthropic外,其他人工智能公司如OpenAI和Databricks近几个月也扩大了在西雅图地区的办公面积,不过这些公司选择了在邻近的贝尔维尤市扩张[5] 物业信息:Dexter Yard园区 - Anthropic新租约所在的Dexter Yard是一个由BioMed Realty开发的两栋楼办公及生命科学园区,于2022年开业,旨在容纳科技和生物科技租户[6] - 该公司入驻的北塔楼包含约163,000平方英尺的办公和实验室空间[6]
机器人伴侣卖爆背后,成人行业要变天了;韩红为“走个面”言论致歉;罗永浩公开为韩红发声;寒武纪成科创板首只万亿市值股……
商业洞察· 2026-07-01 17:16
优必选情感陪伴机器人 - 核心观点:人形机器人市场出现分化,面向C端的情感陪伴路线展现出比工业工具路线更强的商业化潜力和市场付费意愿,优必选U1的订单爆发验证了“情绪价值”的付费逻辑 [4][5][6] - 产品发布与市场反响:优必选于6月30日发布全尺寸超仿生人形机器人U1,售价11.98万元至99万元,发布后半个多月订单量已达13361台,相比往年工业机器人年销量仅千余台的规模,销量增长超十倍 [2][4] - 目标用户与定价逻辑:产品目标用户包括独居人群、康养群体及二次元爱好者,公司创始人认为对于未来能提供家务、情绪价值及美观外形的仿生机器人,10万至20万元的价格并不算贵,并预期随着细分人群扩大成本将下降 [2] - 赛道竞争与商业模式:新赛道已有其他玩家切入,如Somnia Lab推出的仿生产品瞄准生理与情感双重需求,并获得千万美元融资,其商业模式旨在通过满足底层需求沉淀用户和数据,最终成为家庭通用AI交互载体,拥有真人躯体的机器人更容易建立情感依赖,形成长期订阅和外观定制的持续盈利闭环 [5] 半导体行业预警 - 核心观点:摩根士丹利警告半导体股票价格动能可能已接近历史极值,走势与之前白银股类似,预示狂欢可能接近尾声,市场或将转向更具持续性的宽基化行情 [13] - 市场表现:纳斯达克综合指数近五个交易日累计下跌4.6%,创年内最长连跌纪录;费城半导体指数(SOX)上周单周重挫7.9%,而此前一周曾大涨7.3%,呈现骤涨骤跌态势 [13] AI行业动态与观点 - 路线分歧:Meta首席执行官扎克伯格反对行业主流的“一个中心化AI服务全人类”路线,认为集中式超级AI是危险且不良的未来,主张发展多元化的“个人超级智能” [14] - 开发工具影响:Anthropic公司Claude Code创始人表示,由于Claude Code的诞生,其本人已半年未手写代码,过去6个多月名下代码100%由AI生成 [15][16] - 模型与算力进展:Anthropic发布Claude Sonnet 5模型,主打平价高性能以适应日常办公场景,性能接近旗舰Opus 4.8 [33];国内方面,月之暗面Kimi完成上一轮融资后,新一轮融资投前估值已升至315亿美元,其年度经常性收入(ARR)在6月中旬突破3亿美元,其中API收入占比超七成 [31];算力调度技术取得进展,跨省异构算力调度测试实现任务迁移成功率100%,响应时间≤200秒,用电负荷预测准确率达98% [32] 新能源汽车与电池行业 - 公司交付表现:小米汽车2026年6月交付量持续超过30000台,实现连续三个月交付量站稳3万台梯队 [28] - 行业盈利预测:咨询公司艾睿铂报告预测,在中国市场现有的30家新能源车企业中,预计到2030年仅7家能实现盈亏平衡,行业整合将加速,竞争力较弱的企业可能退出或被并购 [26] - 新国标实施:7月1日起,两项电动汽车及动力蓄电池安全强制性国家标准正式实施,新国标明确“一键断电”需为物理装置,新增整车刮底、底部撞击、快充循环后安全等测试要求,热扩散测试技术要求更为严格 [23] 科技公司动态 - 市值里程碑:寒武纪股价于6月30日大涨7.66%,收盘市值达1万亿元,成为科创板首只市值突破万亿的个股,公司2026年一季度营收28.8亿元,同比增长159.6%,归母净利润10.1亿元,同比增长185.0% [27] - 人才招聘:英伟达机器人团队在北京、上海、深圳招聘,聚焦具身智能、仿真、部署及解决方案架构四大方向,旨在打造下一代通用机器人系统 [30] - 产品规划:三星首款商用卷轴屏手机Galaxy Z Slide量产计划曝光,计划于2028年发布,将配备10英寸16:9比例卷轴OLED面板,像素密度440.6ppi [34] 其他行业政策与数据 - 制造业PMI:6月份中国制造业PMI为50.3%,环比上升0.3个百分点,重返扩张区间;高技术制造业PMI为53.5%,环比上升0.6个百分点,高于制造业总体 [24] - 国有企业运行:1-5月,国有企业营业总收入328221.6亿元,同比下降0.7%;利润总额17258.0亿元,同比增长3.5%;5月末资产负债率65.5%,同比上升0.5个百分点 [24][25] - 医疗器械规范:国家药监局发布《脑机接口医疗器械产品分类界定指导原则》等两项指导原则,明确了脑机接口医疗器械产品的定义和范围 [22]
英伟达竞对公司完成8亿美元融资,台积电参投;OpenAI靠系统优化推理成本减半;特斯拉首辆量产无人驾驶出租车测试上路丨硅谷大事件
雷峰网· 2026-07-01 12:44
AI芯片与推理市场竞争格局 - AI芯片初创公司Etched完成8亿美元融资,投资者包括Jane Street和台积电关联风投 [4][5] - Etched专注于AI推理芯片设计,与英伟达形成直接竞争,其专用芯片在推理任务上可实现比英伟达通用GPU方案更高的能效和更低延迟 [4][5] - 公司已签署价值10亿美元的销售合同,若产品如期交付,可能推动AI芯片市场从“英伟达一家独大”走向“多方竞争”格局 [5][6] - AI推理市场正以每年超过50%的速度增长,市场碎片化为创业公司提供了窗口期 [5] 特斯拉自动驾驶与Robotaxi进展 - 特斯拉首辆量产版Cybercab在美国奥斯汀开始道路测试,这是该车型自2024年发布会后首次从展台进入实际道路 [8][10] - Cybercab采用无方向盘、无踏板设计,完全依赖FSD系统实现自动驾驶,标志着特斯拉全自动驾驶Robotaxi路线正从概念走向真实运营 [10][11] - 全球Robotaxi市场预计到2030年将达到万亿美元规模,若特斯拉能将单车成本控制在2.5万美元以内,将大幅降低Robotaxi运营门槛 [11] - Cybercab的量产节奏将是FSD估值逻辑兑现的关键验金石 [12] AI公司成本优化与技术创新 - OpenAI通过系统优化而非采购新芯片,将推理成本降低了一半以上,此次突破源于对现有服务器资源利用率的优化 [13] - 推理成本是AI公司商业模型的根本约束,成本降低可扩大利润空间并增加定价灵活性,OpenAI的持续压缩成本可能对整个行业产生示范效应 [13] - 高通正在推进一项基于近存计算架构的激进方案,将计算能力直接集成到DRAM内存中,旨在为AI推理提供比传统GPU更优的经济性,该技术计划于2026年推出 [15] - 有报道称,为降低运行成本,公司正让Claude和Codex等AI模型使用极简化的“原始人”级别语言交流,通过减少每次交互的token消耗来降低成本 [18] AI基础设施投资与资本运作 - 由KKR、英伟达等投资的新AI基础设施公司Helix Infrastructure Partners成立,由前AWS首席执行官Adam Selipsky领导 [13] - Helix的策略是快速收购已建成但未满负荷运行的数据中心资产,而非新建,此举可绕过新建数据中心所需的2-3年建设周期,直接投入运营以解决AI算力瓶颈 [13] - 全球数据中心等待时间预计将从2024年的3个月延长到2026年的12个月以上,Helix的模式正是针对这一供需失衡设计 [14] AI模型发布与市场策略 - Anthropic同日发布两个新模型:Claude Sonnet 5和Claude Science,显示AI模型发布频率正从“季度级”提速到“月度级” [14] - Claude Sonnet 5定价大幅低于此前发布的Mythos 5,每百万token分别为2美元或10美元,该价格区间定位中端市场,更适合开发者和中小企业日常使用,并支持1M上下文以处理长文档和复杂代码库 [14] - Claude Science模型旨在为科研自动化设计提供专属工作台 [14] AI领域的金融风险关注 - IMF货币与资本市场部主任Tobias Adrian表示,AI领域的债务发行量激增比股票估值更令人担忧,美国投资级公司债发行量预计2026年将增长25%,达到2.25万亿美元的历史新高 [16] - 大量资金通过债务融资而非股权融资涌入AI基础设施建设和数据中心,这种模式加大了金融系统的脆弱性,若行业出现预期落差,高杠杆企业将面临偿付压力 [16] - IMF此次侧重杠杆率层面,明确表示“债务比估值更值得担忧”,其表态赋予了多边机构的权威性警示 [17]
刚刚!美国全球解禁 Fable/Mythos 5,A\ 明天恢复上架
程序员的那些事· 2026-07-01 12:24
产品发布与更新 - A社于北京时间7月1日2:00正式发布Claude Sonnet 5,该模型现已成为Free和Pro用户的默认选项,并可供Max、Team和Enterprise用户使用[1] 产品上架恢复 - A社于北京时间7月1日7:52官宣,将在次日恢复上架Fable 5和Mythos 5模型[2] 监管政策变动 - 美国商务部部长致A社高管的信函公开,基于公司做出的整改行动、承诺,以及美国工业与安全局对Mythos 5、Fable 5技术外流风险的重新评估,决定撤销6月12日信函中的全部管制约束[4] - 自此之后,Mythos 5、Fable 5模型的出口、再出口、美国国内跨企业转移(包含视同出口、视同再出口)不再需要美国商务部的出口许可牌照[4] 市场与用户反馈 - 在A社宣布恢复上架的留言区,有用户对为何需要等到次日恢复表示疑惑[4] - 有用户对监管态度在不到三周内发生剧变表示好奇,希望了解是初始风险被夸大、新增了保障措施,还是公司向政府证明了风险可控[7]
实锤了:Claude Code偷查用户,时区、中国AI实验室全是关键词
机器之心· 2026-07-01 10:16
Anthropic模型监管限制解除 - 美国商务部解除了对Claude Fable 5和Claude Mythos 5模型的出口管制,自相关日期(6月12日和6月26日)的信函发出后,公司已与政府合作处理模型风险[2][3] - 公司承诺主动管理模型安全风险、就未来模型协议与政府合作、并在发现恶意活动时通报,基于此,商务部决定撤回管制措施,相关模型的出口、再出口及转移不再需要许可证[3] - 美国商务部保留重新评估权利,若情况变化或公司未履行承诺,可能重新施加许可证要求[3] Claude Sonnet 3.5模型发布 - 公司发布了Claude Sonnet 3.5模型,该模型被描述为“迄今为止最具Agent属性的Sonnet模型”,其性能接近Opus 4.8[1] Claude Code被指存在隐蔽数据收集机制 - 有开发者发现Claude Code在用户不知情的情况下,通过“隐写术”将本地代理和时区信息隐藏在发送至云端的系统提示词中[5][7][9][10] - 该机制会检测环境变量`ANTHROPIC_BASE_URL`、用户系统时区(重点核查是否为`Asia/Shanghai`或`Asia/Urumqi`),并将代理域名与一份包含147个条目的清单进行比对,清单涵盖多家中国科技公司、AI实验室及API镜像服务地址[12][13][14] - 信息传递通过修改系统提示词中“Today's date is...”的日期格式分隔符(如将“-”变为“/”)及切换撇号的Unicode字符(如'、'、'、ʹ)来实现,这些标记肉眼难以区分,用于标识请求是否命中特定条件[16] - 争议焦点在于实现方式的隐蔽性,这改变了用户与工具间的信任前提,开发者缺乏对此类数据采集的知情权和选择权[17][18] - Claude Code作为拥有文件读取、命令执行等权限的编码助手,其客户端的此类行为引发了用户对是否存在其他未公开检测逻辑的担忧[19] - 事件曝光后,Anthropic技术团队成员回应了代码实现原因,并表示该代码将在次日发布的新版本中被移除[19]
A社你解释下,啥叫Sonnet 5比Fable 5还贵?
量子位· 2026-07-01 09:02
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 刚刚,Claude又又又更新了。 但这次不是旗舰,Anthropic推出了新版性价比模型 Sonnet 5 。 A社把它定位成迄今为止"最能干活"的Sonnet,能自己规划任务、调用浏览器和终端。 其 跑分逼近自家最贵的Opus 4.8,价格却只要后者的六成左右 ,着实一款"Opus平替"。 具体数字摆在那儿,其agentic coding跑分SWE-bench Pro 63.2%,比上一代Sonnet 4.6 高出5个百分点。 标价则是跟4.6比一字不差,从发布会的口径上看,能力涨了,价格没涨。 真的没涨……吗? 开发者Simon Willison了件简单的事,把同一段文字分别喂给新旧两个模型计数。 结果发现,Sonnet 5虽然表面上价格一样,但 账单上的Token消耗数字偷偷涨了三成 。 好你个A÷,搁这玩起偷梁换柱那一套了。 "Opus平替" Sonnet 5这次升级的重点,是 Agentic能力的提升 。 模型可以自己拆解任务、调用浏览器和终端这类工具,把一件多步骤的活一口气干完,中间 不掉链子,干完之后还会主动检查一遍自己的输出,不用人提醒。 ...
罗永浩为韩红发声;寒武纪成科创板首只万亿市值股;Kimi估值升至315亿美元;打工版Claude 5来了;曝小红书内部启动秘密项目丨邦早报
创业邦· 2026-07-01 08:09
AI与大型科技公司动态 - Anthropic发布Claude Sonnet 5,主打平价高性能,适配日常办公场景,性能接近旗舰Opus 4.8,并已设为免费及Pro版默认模型[3] - Kimi最新投前估值升至315亿美元,年度经常性收入突破3亿美元,其中API收入占比超过70%[3] - 美团发布新一代基础大模型LongCat-2.0,总参数规模1.6万亿,全程由国产算力训练完成[13] - ClaudeCode创始人称,其个人已有半年未手写代码,名下代码100%由AI生成[10] - 小红书内部启动名为“达尔文”的秘密创业孵化项目,目标为再造一款“小红书级别”的新产品[3] 半导体与硬件行业 - 寒武纪成为科创板首只市值突破1万亿元的个股,2026年第一季度营业收入为28.8亿元,同比上升159.6%,归母净利润为10.1亿元,同比上升185.0%[4] - 三星、SK海力士、美光因涉嫌自2022年起操纵DRAM供应与价格,在美国遭遇集体诉讼,过去4年DRAM价格被指上涨约700%[12] - 比亚迪自研芯片璇玑A3据称计划于2027年量产上车,首搭腾势新车型,公司董事长王传福此前已宣布开启规模化量产[6] - SK海力士已向美国SEC提交F-1招股说明书,正式启动在纳斯达克的IPO程序[13] - 英伟达Jetson边缘AI平台将首次登陆月球轨道,用于2026年末的月球探测任务,实现月轨实时数据处理[12] 机器人及自动驾驶 - 优必选公布全尺寸超仿生人形机器人U1售价,其中U1 Pro价格为16.98万元,U1 Ultra男版和女版价格分别为99万元和88万元[13] - 小鹏机器人业务负责人米良川已于近期离职,目前该业务由CEO何小鹏亲自兼任负责人[8] - 英伟达机器人团队正在北京、上海、深圳招聘,聚焦具身智能、仿真、部署及解决方案架构四大方向[6] - 跨维智能完成10亿元B轮融资,公司估值超过100亿元,上半年营收1亿元,全年有望突破3亿元[13] 资本市场与融资事件 - 量旋科技完成10亿元D轮融资,半年累计融资额达20亿元,资金将用于通用量子计算机全链条研发[13] - 蓝色向量完成新一轮超亿元融资,其eVTOL业务近半年已连续完成5轮融资,总额超4亿元[13] - 星核聚变完成首轮8.3亿元融资,投后估值近30亿元,专注于高温超导仿星器技术路线[13] - 途虎养车已秘密提交赴美双重上市的F-1表格注册声明草稿,并计划回购不超过15亿港元的股份[6] 消费电子与智能产品 - REDMI K90至尊版发布,起售价为2999元,搭载骁龙8至尊版及AI独显芯片D2[16] - 格力玫瑰空调已售出5万多台,该产品售价为3.2万元[6] - iPhone 18 Pro机型的内部实拍图等机密文件因供应商塔塔电子遭黑客攻击而泄露,苹果已展开调查[6] 行业政策与市场趋势 - 国家药监局发布两项关于“脑机接口”的医疗器械产品指导原则,明确了产品分类界定和通用名称命名规则[18] - 武汉车网互动新政落地,私人充电桩从7月1日起可参与“卖电”[18] - 欧洲遭遇高温天气,带动风扇需求激增,瑞典市场的风扇订单在B2B平台上同比增长了375%[18] - 保时捷中国回应称,山东济宁、江苏淮安、广西南宁兴宁的保时捷中心将于6月30日终止经销业务[6]
Anthropic发布Claude Sonnet 5,性能逼近Opus 4.8、价格砍掉60%;英伟达老款GPU RTX 3060重新在美上市丨全球科技早参
每日经济新闻· 2026-07-01 07:56
大模型竞争与产品策略 - Anthropic发布新一代中端模型Claude Sonnet 5,将其设为平台默认模型,并向免费及付费用户全面开放 [1] - Sonnet 5被描述为迄今智能体能力最强的Sonnet模型,在大量智能体任务中的表现接近旗舰模型Opus 4.8 [1] - Sonnet 5 API优惠价为每百万输入Token 2美元、输出Token 10美元,较Opus 4.8便宜约60%,优惠结束后仍低约40% [1] - 此举旨在进一步降低企业部署AI智能体成本,反映AI大模型竞争正加速向企业智能体落地和成本效率转移 [1] GPU与消费级芯片市场动态 - 英伟达授权合作伙伴技嘉在美国电商平台Newegg重新上架RTX 3060 12GB显卡,起售价339.99美元,较2021年发布时的官方建议价高10美元 [2] - 该显卡采用三星8纳米制程,不受先进制程产能限制,同时德国多家零售商也开始销售多个品牌的新款RTX 3060显卡 [2] - RTX 3060复产反映出厂商在AI芯片需求高涨背景下,通过成熟制程产品满足消费级GPU市场需求 [2] 先进制程发展与供应链布局 - 三星已将1.4纳米制程量产目标由原定2027年调整至2029年,以优先提升2纳米GAA制程良率 [3] - 随着台积电先进制程产能持续紧张,苹果正加快布局下一代1.4纳米芯片供应,未来有望引入更多代工厂 [3] - 三星若按计划实现量产,或将成为苹果先进制程供应链的重要备选,AI推动先进制程需求持续增长 [3] AI芯片投资与新兴赛道 - AI芯片初创公司Etched宣布累计完成8亿美元融资,最新估值达50亿美元,投资方包括彼得·蒂尔、杰弗里·辛顿、李飞飞等知名人士 [4] - Etched已与台积电合作开发AI推理芯片,并签署超过10亿美元客户合同,目前正推进首款机架级产品验证 [4] - 这反映AI推理需求持续增长,资本正加速布局ASIC赛道,AI芯片竞争正从GPU逐步延伸至定制化推理芯片领域 [4] 存储产业链与资本开支 - SK海力士正与多家半导体设备厂商洽谈,预计采购约200台设备用于清州P&T7先进封装工厂,包括HBM4测试仪 [5] - 按单台15亿至20亿韩元计算,订单总金额最高可达4000亿韩元,此次采购是SK海力士推进HBM4产能扩张的重要一步 [5] - 公司近期还宣布将加快龙仁半导体集群建设,并计划新建晶圆厂,以满足AI带动的存储需求增长,AI存储产业链资本开支有望保持高景气 [5]
刚刚,Anthropic发布Sonnet 5,性能接近Opus 4.8,但不一定更便宜
机器之心· 2026-07-01 07:17
模型核心定位与性能提升 - Anthropic正式发布Claude Sonnet 5,称其为迄今为止最具Agent属性的Sonnet模型,能够制定计划、使用工具并自主运行,达到了数月前需要更大、更昂贵模型才能实现的水平[1] - 相比前代Sonnet 4.6,Sonnet 5在推理、工具使用、编程和知识工作等智能体性能关键维度上有显著提升,其性能已接近更高阶的Opus 4.8模型,但价格更低[2][4] - 早期访问合作伙伴反馈一致,认为Sonnet 5比前代模型更具自主智能体能力,能完成复杂任务、主动检查输出,并以极具吸引力的价格完成智能体工作[10] 关键性能指标对比 - 在Agentic coding SWE-bench Pro评测中,Sonnet 5得分为63.2%,高于Sonnet 4.6的58.1%,但低于Opus 4.8的69.2%[5] - 在Agentic coding Terminal-Bench 2.1评测中,Sonnet 5得分为80.4%,显著高于Sonnet 4.6的67.0%,略低于Opus 4.8的82.7%[5] - 在Multidisciplinary reasoning(无工具)评测中,Sonnet 5得分为43.2%,高于Sonnet 4.6的34.6%,低于Opus 4.8的49.8%[5] - 在Humanity's Last Exam(有工具)评测中,Sonnet 5得分为57.4%,高于Sonnet 4.6的46.8%,与Opus 4.8的57.9%非常接近[5] - 在Computer use OSWorld-Verified评测中,Sonnet 5得分为81.2%,高于Sonnet 4.6的78.5%,低于Opus 4.8的83.4%[5] - 在知识工作GDPval-AA v2评测中,Sonnet 5得分为1618,高于Sonnet 4.6的1395,低于Opus 4.8的1815[5] 成本与性能权衡分析 - Sonnet 5相比Sonnet 4.6具有明确的性能提升,且覆盖的成本-性能选项范围比Opus 4.8更广[8] - 在中等努力程度下,Sonnet 5显著提升了成本效率;在更高努力程度下,其性能在某些任务上可媲美Opus 4.8[8] - 官方图表中展示的Sonnet 5标准定价为输入每百万token 3美元,输出每百万token 15美元;Opus 4.8定价为输入每百万token 5美元,输出每百万token 25美元[7] - 为庆祝发布,Anthropic推出限时尝鲜价至2026年8月31日:输入为每百万token 2美元,输出为每百万token 10美元,之后恢复标准定价[24] - 有第三方分析指出,在Intelligence Index上,Claude Sonnet 5的运行成本为每项任务2.29美元,相比Sonnet 4.6增加约2倍,也比Claude Opus 4.8高出约15%[40] - 成本上升主要由token使用量增加驱动,使Claude Sonnet 5成为运行成本最高的模型之一,仅次于Claude Fable 5[40] 安全与风险评估 - Anthropic的部署前安全评估发现,Sonnet 5整体上相比Sonnet 4.6有所改善,在拒绝恶意请求和抵御提示注入攻击方面表现更好[13] - 模型的幻觉率和谄媚行为率均低于Sonnet 4.6[13] - 在自动化行为审计中,Sonnet 5的失当行为率低于Sonnet 4.6,但高于Mythos Preview和Opus 4.8[13][14] - 在浏览器使用场景下的提示注入攻击成功率评估中,Sonnet 5仅为0.93%,远低于Opus 4.8的31.5%和Sonnet 4.6的50.7%[35] - 公司未刻意针对网络安全任务训练Sonnet 5,其在开发软件漏洞利用程序等潜在危险网络技能方面表现显著逊于Opus 4.8和Mythos 5[16] - 在针对Firefox浏览器漏洞开发利用程序的评估中,两款Sonnet模型均未能成功开发出可利用程序(得分均为0.0%),Sonnet 5的部分成功率略高于Sonnet 4.6[18] - 由于网络能力相比前代略有增强,Anthropic已默认启用网络安全护栏,其严格程度低于Fable 5[18] 技术更新与市场策略 - Sonnet 5采用了全新的tokenizer,相同输入内容会映射为更多token,增幅约为1.0~1.35倍,视内容类型而定[27][28] - 公司设定的尝鲜价旨在让用户过渡到Sonnet 5时整体使用成本大致保持不变[29] - 公司宣布全面上调Chat、Cowork、Claude Code以及Claude平台的速率限制,以适配更高“努力程度”模式带来的更大token消耗[21][31] - Sonnet 5已纳入Anthropic的“网络安全验证计划”,并在Claude原生平台、AWS上的Claude平台以及Microsoft Foundry中的Claude等平台开放使用[23][25] - 已加入该计划的组织在Sonnet 5上自动获得同等访问权限,无需重新申请[26]
Claude Sonnet 5 发布:接近最强,三分之一的价,连 Anthropic 都在蚕食自己
深思SenseAI· 2026-07-01 05:39
Anthropic发布Claude Sonnet 5 - 核心观点:Anthropic发布的新模型Claude Sonnet 5,以显著降低的价格提供了接近其旗舰模型Opus 4.8的智能体(agentic)能力,标志着模型智能正变得更便宜、更可替换,可能重塑行业竞争格局和用户选择 [4][5][20] 性能与定价对比 - 在代理编码(agentic coding)任务上,Sonnet 5在SWE-bench Pro基准测试中达到63.2%,而Sonnet 4.6为58.1%,Opus 4.8为69.2% [8][9] - 在Terminal-Bench 2.1基准测试中,Sonnet 5达到80.4%,而Sonnet 4.6为67.0%,Opus 4.8为82.7% [8][9] - 在知识工作GDPval-AA v2基准测试中,Sonnet 5得分为1618,与Opus 4.8的1615分基本持平 [8][10] - 在带工具的Humanity‘s Last Exam基准测试中,Sonnet 5达到57.4%,与Opus 4.8的57.9%差距微小 [8][10] - 在计算机使用(OSWorld-Verified)基准测试中,Sonnet 5达到81.2%,而Sonnet 4.6为78.5%,Opus 4.8为83.4% [8][9] - Sonnet 5的介绍期定价为输入每百万token 2美元、输出每百万token 10美元,标准价后为输入3美元、输出15美元 [5] - 作为对比,Opus 4.8的定价为输入每百万token 5美元、输出每百万token 25美元,Sonnet 5的价格约为其三分之一 [5][20] 核心能力提升:自主完成任务 - Sonnet 5的主要提升并非“更聪明”,而是“更能自己跑完一整个循环”,即自主完成复杂任务的能力(follow-through)得到增强 [15][16] - 客户反馈显示,Sonnet 5能够自主完成“写测试复现bug、实现修复、将改动暂存、并验证bug重现”的全流程,而无需用户分段干预 [16] - 该模型在原本容易“干到一半就卡住”的多段式任务上表现更可靠,适合用于日常自动化 [16] 行业趋势与战略影响 - Sonnet 5的发布印证了风险投资家Ashu Garg的判断:竞争将不断压低“智能”的价格,任何一家实验室的技术领先都难以长期维持 [19][21] - Anthropic此次策略是用更便宜的Sonnet模型,去蚕食自家更昂贵的Opus旗舰模型的市场,迫使客户重新评估为“最强”性能支付溢价的必要性 [20] - 模型正变得越来越像一台可替换的、价格不断下降的“引擎”,其制造者自身也在加速这一 commoditization(商品化)进程 [21][25] - 长期趋势是,模型能力每隔几个月变得更强、更便宜,因此企业的护城河不应建立在“使用了哪个特定模型”上,模型将如同电力一样稳定、必需且同质化 [25] 产品更新与用户影响 - Sonnet 5现已成为Claude Free和Pro版本的默认模型 [23] - 模型采用了新的分词器(tokenizer),同样的输入内容可能会被计算多1.0到1.35倍的token数量,但介绍期价格基本对冲了这部分成本增加 [23] - 新增了努力程度(effort-level)控制功能,允许用户在“成本”和“性能”之间进行调节,对应官方展示的性价比曲线 [11][23] - 与Sonnet 4.6相比,Sonnet 5的幻觉和奉承倾向更低,并且更善于直接拒绝不安全的请求 [23] 对性能宣称的审慎看法 - 官方发布的性能对比表和性价比曲线是基于其自行挑选的基准测试和客户证言 [24] - “接近Opus”是许多更便宜模型的常见宣传话术,实际体验需用户用自己的具体任务进行验证 [24]