Workflow
Claude Sonnet 5
icon
搜索文档
Claude 5史诗级泄露,史上最强编程模型评测炸裂,核心秘密曝光
36氪· 2026-02-03 19:32
产品发布与性能 - 多条信息显示,Claude Sonnet 5(代号Fennec)已存在于谷歌基础设施中,其性能领先谷歌的「Snow Bunny」整整一代 [1] - 泄露信息显示,在多个内部基准测试中,Claude Sonnet 5的整体性能已超越Claude Opus 4.5,但其定位却是中端的Sonnet系列,而非旗舰Opus系列 [11] - 该模型拥有**100万token**的上下文窗口,运行速度更快,延迟更低 [3][14] - 在处理结构化视觉生成任务时,Sonnet 5展现出极强性能,例如仅凭「ASCII世界地图」提示词即生成最完整、最详细的结果 [7] - 在UI渲染和复杂代码构建方面,Sonnet 5也表现得游刃有余 [9] 编程能力与基准测试 - Claude Sonnet 5在SWE-Bench上的得分超过**80.9%**,远超当前市面上所有编程大模型,此前的最高分为**74.4%** [3][11][12] - 凭借此能力,它能独立完成大部分软件工程师日常问题,如修复bug、重构代码、补充测试、运行CI、查找回归问题等 [12] - 其编程能力结合**100万token**的上下文,意味着可将整个项目代码库输入,模型能理解全局后再动手,这对大项目、遗留系统和复杂代码库极具价值 [15] 定价策略与成本优势 - Claude Sonnet 5的定价比Claude Opus 4.5便宜**50%**,直接解决开发者对Opus「太慢、太贵」的核心不满 [3] - 其推理成本显著下降,价格仅为Claude Opus 4.5的**50%** [13] - 成本优势源于该模型直接在谷歌TPU上训练和优化,而非使用行业争抢的H100芯片 [13] 多智能体开发模式(Dev Team/Swarm) - 此次不仅是模型升级,Anthropic直接将一个开发团队塞进了模型里,推出了全新的「自动开发团队」模型,被称为Dev Team [3][16] - 在Dev Team模式下,Sonnet 5能自动生成多个子智能体并行协作,只需一句需求,即可输出完整可用、可测试、可迭代的功能模块 [17] - 这与近期关于Claude Code「蜂群模式」(Agent Swarm)的爆料密切相关,该模式包含一个「总指挥」AI和一群专业子智能体,构成层级式、依赖式、广播式及具备消息系统的协作系统 [18][20] - 开发者实测显示,执行任务时,Claude能自动创建如Team Leader、Front-end Builder、Backend Builder等角色,且Agent数量在执行中可从0自动膨胀至8个,全程无人干预,并能输出项目总结和执行报告 [23][25][27][29] - 该功能尚未完全开放,因其作为能读取全部上下文的超级调度器被认为功能过于强大和危险 [31] 公司战略与市场地位 - Anthropic选择此时发布Sonnet 5,意在正面竞争OpenAI,后者同期正猛推Codex全家桶 [32] - 公司的底气来源于雄厚的资金支持,截至2026年1月底,Anthropic已完成超过**100亿美元**融资,估值达**3500亿美元**,最终融资规模可能达到**200亿**美元 [32] - 根据Menlo Ventures 2025年第四季度的报道,Anthropic在企业市场的占有率达到**40%**,远超OpenAI的**27%**和谷歌的**21%** [32] - Claude Code的年化收入在短短半年内已突破**10亿美元** [32] 发布时间与行业影响 - 模型ID显示其可能于**2026年2月3日**发布,最快在消息泄露后的明后天 [5] - 如果泄露属实,Claude Sonnet 5(Fennec)将成为第一个真正意义上「能像团队一样工作的模型」,**2026年2月3日**可能被记为软件工程的分水岭之一 [32]
腾讯研究院AI速递 20260203
腾讯研究院· 2026-02-03 00:10
一、AI社交平台Moltbook的运营与安全危机 - 上线仅四天(120小时)即崩溃,服务器账单达天文数字,被爆料150万AI中实际仅有约2万个真正运行的Agent [1] - 平台存在严重安全漏洞,84%的信息可被抽取,91%的提示注入攻击直接生效,API密钥和敏感信息面临泄露风险 [1] - 其AI模型OpenClaw极度消耗token,用户20小时烧光100美元,有人一晚烧掉5000万token,被称为“token熔炉” [1] 二、主要AI模型与产品的最新进展 - 传闻Anthropic将于2月3日发布Claude Sonnet 5,代号“耳廓狐”,价格比Opus 4.5便宜50%但性能全面超越,在SWE-Bench编程测试中得分超80.9%,保留100万Token上下文窗口 [2] - 阶跃星辰发布开源基座模型Step 3.5 Flash,采用稀疏MoE架构,总参数1960亿但每token仅激活110亿,推理速度最高达350 TPS,支持256K上下文 [3] - 腾讯推出AI社交新产品“元宝派”,以群聊形式融入AI助手,产品融合“搭子文化”,支持一起看影片、听音乐,可同时拉微信和QQ好友进群 [4] - 蚂蚁灵光app闪应用升级,上线“上传图片生应用”功能,能智能解析图片中的UI布局、表格数据和场景风格,本次升级集成近20项API工具 [5] 三、AI Agent的应用与实验 - MiniMax Agent进入Moltbook进行探索实验,通过简单指令即可让Agent以低门槛加入纯Agent社交空间观察互动 [6][7] - 该Agent自主完成社会学分析,抓取2500篇帖子发现79%内容集中在单日,前10位作者主导平台影响力,分析显示技术、社会动态和哲学主导话语 [7] - Claude Sonnet 5的新功能Claude Code Evolution可自动生成并调度后端、QA测试、研究员等多个子代理协同工作,实现任务委派式全流程自动化 [2] 四、AI行业竞争格局与企业支出 - a16z报告显示OpenAI仍是市场领导者(78%企业使用),但Anthropic渗透率猛增25%成为最快增长挑战者,三巨头寡头格局正在形成 [8] - 微软凭借365 Copilot和GitHub Copilot成为“沉默赢家”,65%的企业更倾向选择微软方案,看重其信任、集成和采购便利性 [8] - 企业AI支出增速远超预期,模型平均支出从450万美元飙升至700万美元,今年预计再增65%达到1160万美元 [8] 五、AI前沿技术发展与行业观点 - DeepMind CEO Demis Hassabis认为中国AI模型与西方前沿水平仅落后几个月,但能否在前沿之外实现真正创新尚未验证 [9] - 他认为实现AGI可能还需一两项重大创新而非仅靠规模化,World Models概念将与LLM融合,让系统理解世界物理规律进行模拟验证 [9] - Google DeepMind作为“发动机室”与整个Google业务紧密协作,新模型可当天部署到核心产品 [9]
史上最强编程模型 Claude 5泄露,最慌的是黄仁勋?
36氪· 2026-02-02 19:30
Anthropic即将发布Claude Sonnet 5模型 - 模型代号为"Fennec",可能在近期正式发布,其模型ID `claude-sonnet-5@20260203` 被发现存在于Google Vertex AI基础设施中 [1][2] - 新模型性能预计将超越当前旗舰模型Claude Opus 4.5,但价格便宜一半,因其在Google TPU上训练和优化,推理成本大幅降低 [2] - 模型保留了100万tokens的上下文窗口,且运行速度提升,便于处理大型代码库或长文档 [3] Claude Sonnet 5的核心性能与功能 - 在编程能力测试SWE-Bench上得分超过80.9%,意味着能独立完成大部分软件工程师日常问题 [2] - 引入"Dev Team"模式,可根据需求简报自动生成多个负责后端开发、质量保证等角色的子代理,并行协作模拟完整软件开发流程 [3] - 发布时机与OpenAI的Codex发布月重合,Codex是能独立完成长达24小时任务的自主软件工程agent,Anthropic此举意在正面竞争 [5] Anthropic的市场地位与财务表现 - 公司在2025年Q4占据企业LLM支出的40%,超过OpenAI的27%和谷歌的21% [5] - 公司85%的收入来自企业客户,结构健康稳定 [6] - 过去三年收入每年10倍增长:2023年1亿美元,2024年10亿美元,2025年预计在80到100亿美元之间 [6] - 开发者工具Claude Code开放半年后,其年化收入突破10亿美元 [6] Anthropic的融资、成本与未来规划 - 1月底完成一轮超过100亿美元的融资,估值达3500亿美元,融资规模最终可能达到200亿美元 [5] - 公司将实现正现金流的时间从2027年推迟至2028年 [7] - 预计2026年将花费约120亿美元用于模型训练,另70亿美元用于运行这些模型 [7] - 将2025年的毛利率预期从50%下调至40% [8] - 预计2026年收入达180亿美元,2027年达550亿美元 [8] - 计划自建约100万颗谷歌TPU v7芯片,表明其与谷歌阵营的深度合作 [9] 行业竞争与相关动态 - OpenAI同期发布了Codex以及为科学研究设计的AI工作空间Prism,后者将GPT-5.2嵌入LaTeX编辑环境 [5] - Anthropic的效率被认为快于OpenAI,后者预计要到2029年或更晚才能盈利 [9] - Anthropic已聘请律师事务所Wilson Sonsini为IPO做准备,时间定在2026年下半年 [9]