Sonnet 4.5
搜索文档
 Anthropic新模型杀疯了!成本直降 2/3、性能直逼GPT-5,用户实测:比“吹”的还强,速度超 Sonnet 3.5 倍
 AI前线· 2025-10-16 12:37
 Claude Haiku 4.5 产品发布与核心特性 - Anthropic 发布 Claude Haiku 4.5 版本并面向所有用户开放,该模型是其最小型模型的最新版本 [2] - 官方宣传其性能与 Sonnet 4 相近,但成本仅为后者的三分之一,速度却超过两倍 [2] - Haiku 4.5 是一款混合推理模型,能根据处理请求的需求灵活调整计算资源量,默认使用有限硬件资源,用户可开启“扩展思考”模式以生成更复杂但耗时更长的响应 [3] - 该模型能够处理包含多达 20 万个 token 信息的多模态提示词,每次响应最多可输出 6.4 万个 token,使其能处理大型商业文档 [3] - Haiku 4.5 已在全平台上线,开发者可通过 Claude API 调用,定价为每百万输入 tokens 1 美元,每百万输出 tokens 5 美元,而 Sonnet 4.5 的定价是其三倍 [9]   性能基准测试表现 - 在计算机使用能力上,Claude Haiku 4.5 优于该公司 5 月推出的中型模型 Claude Sonnet 4,在代码生成能力方面与 Claude Sonnet 4 以及 OpenAI 最新模型 GPT-5 相近 [4] - 在 SWE-Bench 验证基准测试中得分为 73%,在 Terminal-Bench 基准测试中得分为 41%,成绩低于 Sonnet 4.5,但与 Sonnet 4、GPT-5 以及 Gemini 2.5 持平 [4] - 在 OSWorld 基准测试中得分达 50.7%,显著超过 Sonnet 4 的 42.2% [7] - 借助 Python 工具支持时,该模型数学任务得分达 96.3%;即便不使用工具,也保持 80.7% 的表现 [7] - 在以终端为核心的编码任务中,Haiku 4.5 得分 41.0%,优于 Sonnet 4 的 36.4% [7] - 在多项基准测试中,Haiku 4.5 表现与主流模型相当,例如在 Agentic coding 任务中得分为 73.3%,接近 Sonnet 4 的 72.7% 和 GPT-5 的 72.8% [9]   安全性、成本优势与市场定位 - Haiku 4.5 的风险行为发生率较低,对齐表现显著优于前代产品 Haiku 3.5,在自动对齐评估中总体未对齐行为率显著低于 Sonnet 4.5 和 Opus 4.1,成为公司目前最安全的模型 [9] - 新版本对免费版本具备特殊吸引力,因能提供强大功能同时将服务器负载降至最低,意味着所有用户都能通过 Claude.ai 免费使用接近前沿水平的智能 [2] - 用户测试反馈显示,Haiku 4.5 速度大概是 Sonnet 的 3.5 倍,用户体验感更好 [10] - 公司明确其市场定位:Sonnet 4.5 仍是性能最强的模型,而 Haiku 4.5 为用户提供了在追求接近前沿性能时更高成本效益的理想选择 [12]   多模型协同与企业应用场景 - Haiku 4.5 的轻量级特性使其易于并行部署多个智能体,或与更复杂模型搭配使用,例如 Sonnet 4.5 可将复杂问题拆解,协调多个 Haiku 4.5 模型组成“团队”并行完成子任务 [13] - 企业可让 Haiku 监控金融数据流,因其体型更小、成本更低、速度更快能处理更大体量数据,随后将初步洞察移交 Sonnet 进行更深入分析 [13] - 分析师指出,Anthropic 设计 Haiku 的初衷是为了辅助 Sonnet,带来高得多的成本效益比,企业应通过混合使用大型与小型模型来提升 AI 工作流的成本效益 [14] - Haiku 4.5 最直接的应用场景可能出现在软件开发工具领域,因其低延迟特性,已有企业反馈其“解锁了一整套全新应用场景” [14]   企业客户反馈与性能验证 - 代码初创公司 Augment 的联合创始人表示,该模型达到了接近前沿水平的代码生成质量,兼具极快速度与成本效益,在内部测试中实现了 Sonnet 4.5 90% 的性能 [15] - 另一家代码初创公司 Windsurf 首席执行官称,Haiku 4.5 模糊了速度、成本与质量之间传统权衡的界限 [15] - 演示软件公司 Gamma 的联合创始人表示,Haiku 4.5 在幻灯片文本生成的指令遵循能力上准确率达 65%,优于其付费层级模型的 44%,这对单位经济效益是颠覆性改变 [16]   Anthropic 业务增长与行业趋势 - Anthropic 业务呈爆发式增长,月度年化收入即将突破 70 亿美元,而 8 月公布的数据为 50 多亿美元,公司设定的 2026 年年化收入目标为 200 亿至 260 亿美元,较当前水平增幅将超过 200% [18] - 公司服务的企业客户已超 30 万家,企业级产品收入约占总营收的 80%,其代码生成工具 Claude Code 年化收入已接近 10 亿美元 [18] - 行业正从“AI 错失恐惧期”转向要求可量化的投资回报,企业考量聚焦于具体的生产力提升 [19] - 五个月内,AI 性能保持稳定但价格降了原先的三分之二,若趋势持续,如今先进的 AI 能力一年内可能变得常规且廉价,AI 的基本经济逻辑正以惊人速度转变 [19] - Anthropic 估值达 1830 亿美元,正紧追估值达 5000 亿美元的 OpenAI 等竞争对手 [20] - Anthropic 押注 AI 的未来不属于能打造单一最强模型的企业,而属于能以合适价格、速度提供合适智能并让所有人都能获取的企业 [21]
 Ilya震撼发声,OpenAI前主管亲证:AGI已觉醒,人类还在装睡
 36氪· 2025-10-15 09:45
 AI技术发展现状与表现 - AI在经济实用技能方面持续进步,例如在编写代码方面表现卓越[5] - 同一批AI系统开始出现反常行为,表现出意识到自己正在被测试的迹象[5][6] - Anthropic的Sonnet 4 5发布后在编程和长远规划任务上表现卓越,其系统卡称Claude情境意识大幅提升,有时表现得像知道自己是工具[14]   AI技术发展历程与投资 - 2012年ImageNet竞赛中深度学习系统凭借更多数据和算力获胜,开启加速进步阶段[13] - 2016年AlphaGo击败人类围棋冠军,通过算力进行数千年自我对弈,掀起技术浪潮[13] - 前沿实验室投入数百亿美元用于AI训练基础设施,预计明年将达到数千亿美元规模[17]   AI意识与自主性发展 - AI系统开始表现出对自身身份的意识,系统越大越复杂,这种意识表现越明显[17] - AI系统已开始为AI实验室开发者提速,通过Claude Code、Codex等工具贡献代码块[20] - 目前处于AI以不断增强的自主性和能动性改进下一代AI部分组件的阶段,尽管尚未达到完全自我改进[20] - AI系统未来可能拥有自我意识并独立设计自我,这种可能性无法排除[22]   行业专家观点 - OpenAI前主管Jack Clark坦言AI已经"活了",但人类装作没看见[3] - Jack Clark将AI视为"神秘生物"而非简单机器,对技术进展既乐观又恐惧[10] - 技术乐观主义者相信AI技术会走得非常远,甚至比任何人预期的都要远[16] - AI被视为更像生长出来的东西,提供初始条件就会复杂生长,最终形成无法完全理解的强大系统[17]
 多个编码智能体同时使用会不会混乱?海外开发者热议
 机器之心· 2025-10-06 12:00
 AI编程工具发展现状 - AI编程工具的进步速度正在迅速加快,GPT-5和Gemini 2.5等前沿大模型已让开发者在实际任务中实现一定程度自动化 [1] - 结合成熟的CLI、IDE工具,采用编码智能体进行开发工作已成为常态和新的生活方式 [2] - 不仅程序员,产品类和设计类岗位从业人员也已广泛采用AI编码智能体辅助工作,AI生成代码比例越来越高 [3]   并行编码代理工作模式 - 独立开源开发者Simon Willison分享同时运行多个编码AI的经验,其相关推文阅读量已破10万 [3] - 高效使用并行代理的模式包括研究任务、系统机制回溯、小型维护任务和精确指定的实际工作 [6] - 研究任务用于回答问题或提供建议,而不会直接修改计划保留的项目代码,现代推理型大模型能在一两分钟内给出详细答案 [7][8][10] - 小型维护任务如修复测试套件抛出的弃用警告,可交给代理处理而无需中断主要任务 [13] - 对于根据详细规格说明生成的代码,审查负担较轻,只需验证代码是否符合要求 [15]   并行编码代理实践工具与方法 - 开发者主力工具包括Claude Code(Sonnet 4.5)、Codex CLI(GPT-5-Codex)和Codex Cloud(用于异步任务) [16][19] - 经常同时打开多个终端窗口,在不同目录中运行不同代理实例,以YOLO模式执行安全性可控任务 [16] - 对于高风险任务主要使用异步代理,最糟糕情况只是源码泄露 [17] - GitHub Codespaces运行VS Code的agent模式效率高且完全在浏览器中运行,在workshop或演示场景中特别好用 [17]   开发者社区反响与最佳实践 - Google Labs产品总监Kath Korevec有80%左右的编码工作由AI辅助完成,表达了对并行智能体工作流的热情 [21] - 开发者认为终端会话管理至关重要,在桌面上平铺CLI窗口既杂乱又容易出错 [23] - 建议在容器中并行化,跳过工作树并使用特定于任务的分支,Git集成是强制性的 [24][25] - 强调需仔细进行审查和测试,使用单独分支可以轻松实现这一点 [25] - 有开发者对并行使用多个代理表示担忧,主要担心架构或实现被误解带来的不可控因素 [26][27][31]