Imagine with Claude
搜索文档
加量不加价,一篇说明白 Claude Sonnet 4.5 强在哪
Founder Park· 2025-09-30 11:46
产品发布与核心性能 - Anthropic发布Claude Sonnet 4.5模型,官方称之为世界上最好的编码模型 [2] - 该模型在处理复杂多步骤任务时能保持超过30小时的专注度 [2][9] - 在SWE-bench Verified评测中达到77.2%的得分,在Agentic coding with parallel test-time compute评测中达到82.0%的得分 [12] - 在OSWorld基准测试中得分达61.4%,相比四个月前Sonnet 4的42.2%得分有显著提升 [10] 定价与成本优化 - Claude Sonnet 4.5定价与Claude Sonnet 4相同,输入为3美元/百万token,输出为15美元/百万token [2] - 通过提示缓存可节省高达90%的成本,批量处理可节省50%的成本 [2] 功能与工具更新 - 在Claude Code中添加了检查点功能,可保存进度并即时回滚到之前的状态 [4] - 更新了终端界面并发布了原生VS Code扩展 [4] - 在Claude API中新增了上下文编辑功能和记忆工具 [4] - 代码执行和文件创建(电子表格、幻灯片和文档)功能已直接集成到对话中 [5] - 为Max用户提供了Claude for Chrome扩展程序 [6][13] 多领域能力表现 - 在金融分析Finance Agent评测中得分55.3%,优于GPT-5的46.9%和Gemini 2.5 Pro的29.4% [12] - 在研究生级推理GPQA Diamond评测中得分83.4% [12] - 金融、法律、医学和STEM领域的专家认为,相比旧模型,Sonnet 4.5在领域特定知识和推理方面能力显著更好 [14] 开发者工具与平台集成 - 发布面向开发者的工具Claude Agent SDK [2][30] - Sonnet 4.5已集成到Claude开发者平台、Amazon Bedrock和Google Cloud的Vertex AI中 [3] - Claude Agent SDK提供了管理内存、权限系统和协调子智能体的能力 [28][30] 实验性功能与安全特性 - 发布实验性研究预览功能"Imagine with Claude",可在五天内为Max订阅用户实时生成软件 [31][33] - 该模型是迄今为止对齐性最好的前沿模型,减少了谄媚、欺骗、权力寻求等未对齐行为 [24] - 模型在防御提示注入攻击方面取得重大进展 [24] - 根据AI安全级别3(ASL-3)保护下发布,包含针对CBRN武器相关内容的过滤器 [25]
刚刚,Claude Sonnet 4.5重磅发布,编程新王降临
36氪· 2025-09-30 09:32
产品发布与核心定位 - Anthropic正式发布Claude Sonnet 4.5,并将其定义为全球最强的代码模型 [2][3] - 该版本在智能体构建、计算机使用、推理和数学能力上展现出显著突破,旨在提升现代工作中运用工具和解决复杂问题的效率与可靠性 [3][5] 性能基准测试表现 - 在SWE-bench Verified测试中达到82.0%的准确率,优于Claude Opus 4.1的79.4%、Claude Sonnet 4的80.2%以及GPT-5的74.5% [4] - 在终端编码测试Terminal-Bench中取得50.0%的准确率,显著高于Claude Sonnet 4的36.4%和GPT-5的43.8% [4] - 在计算机使用基准OSWorld测试中以61.4%的成绩位居首位,相比四个月前Sonnet 4的42.2%有大幅提升 [4][13] - 在金融分析测试Finance Agent中取得55.3%的准确率,高于Claude Opus 4.1的50.9%和GPT-5的46.9% [4] 全新功能与产品升级 - Claude Code新增“检查点”功能,支持随时保存进度和回滚,并更新了终端界面及推出原生VS Code插件 [6] - Claude API增加上下文编辑功能和记忆工具,使智能体能运行更久并处理更复杂的任务 [6] - Claude apps支持在对话中直接执行代码、生成文件(包括表格、幻灯片和文档) [6] - 向开发者社区推出Claude Agent SDK,开放驱动Claude Code的底层基础设施 [8][9] 专业用户验证与实际应用效果 - iGent AI CEO表示,Claude Sonnet 4.5能自主编程超过30小时,帮助工程师在极短时间内完成原本需数月的复杂架构工作 [22][23] - replit内部测试显示,代码错误率从Sonnet 4的9%降至0% [22] 安全性与对齐性改进 - Sonnet 4.5是迄今为止对齐性最好的Claude模型,在减少迎合、欺骗等行为方面成效明显,并特别加强了对提示注入攻击的防御 [28] - 模型按照AI Safety Level 3框架发布,包含针对化学、生物等内容的分类器过滤机制,与Sonnet 4相比误报率已降低十倍 [31] API新特性与定价 - API层面重要更新包括记忆工具、上下文编辑、新的停止原因提示及工具参数改进 [34] - 定价保持与Sonnet 4一致,输入为3美元/百万Tokens,输出为15美元/百万Tokens [35] - 模型可通过Claude API、Amazon Bedrock、Google Cloud Vertex AI及Claude.ai与Claude Code平台使用 [37] 研究预览与行业影响 - 发布临时研究预览“Imagine with Claude”,该功能可实时生成软件演示视频,向Max订阅用户开放5天 [33] - 该版本被视为编程领域的重大跃升,预计将引发新一轮AI编程大战,成为行业争相对标的新对象 [40]
Claude Sonnet 4.5被炸出来了,依旧最强编程,连续30小时自主运行写代码
量子位· 2025-09-30 08:57
模型性能提升 - Claude Sonnet 4.5在SWE-bench上的成绩为77.2%,比Sonnet 4的72.7%提升了1.8个百分点 [2][10] - 在OSWorld测试中取得60.2分的SOTA成绩,比Sonnet 4提升了近一半 [7][10] - 在终端编程(Terminal-Bench)测试中成绩为50.0%,显著高于Sonnet 4的36.4% [9][10] - 在高中水平数学AIME 2025试题中,借助Python可实现100%准确率,不借助工具准确率为87% [9][10] - 在金融分析(Finance Agent)测试中成绩为55.3%,高于Sonnet 4的44.5% [10] 智能体能力突破 - 能够连续工作30个小时完全自主编写代码,工作时长远超Opus 4的7小时 [3][5] - 在30小时内编写了11000多行代码,构建出类似Slack的聊天应用 [4] - 在工具使用(τ2-bench)测试中,电信领域成绩达98.0%,远高于Sonnet 4的49.6% [10] - 在专业领域(金融、医疗、法律、STEM)对战baseline模型的胜率均大幅提升,在16K上下文下超过60% [11] 安全性与实用性改进 - 通过安全训练减少了谄媚、欺骗等不良行为 [12] - 在防御即时注入攻击方面取得显著进展 [12] - 正常请求拒绝率从Sonnet 4的0.15%下降至0.02% [13] - 获得GitHub首席产品官认可,能更好地处理复杂跨代码库任务 [16] - 获得Cognition联创认可,显著提升Devin的规划能力和端到端评估成绩 [20] 产品定价与生态建设 - 保持提质不加价策略,输入token价格为3美元每百万,输出token价格为15美元每百万 [24] - 发布Claude Agent SDK,支持构建通用自主智能体,解决内存管理、权限系统等关键难题 [26][27][29] - 推出Imagine with Claude新功能,可实时生成软件原型,Max订阅用户可优先体验 [30][32][33]
Claude Sonnet 4.5来了!能连续编程30多小时、1.1万行代码
机器之心· 2025-09-30 08:27
模型性能表现 - Claude Sonnet 4.5在SWE-bench验证评估中达到82.0%,领先于Claude Opus 4.1的79.4%和GPT-5的74.5% [7][13] - 在Terminal-Bench终端编码评估中取得50.0%的成绩,高于Claude Sonnet 4的36.4%和GPT-5的43.8% [13] - 计算机使用能力在OSWorld基准测试中达到61.4%,相比四个月前Sonnet 4的42.2%有显著提升 [11][13] - 高中数学竞赛AIME 2025评估中达到100%(使用Python工具),高于GPT-5的99.6% [13] - 金融分析能力达到55.3%,优于Claude Opus 4.1的50.9%和GPT-5的46.9% [13] 产品功能升级 - Anthropic为Claude Code添加检查点功能,支持进度保存和状态回滚 [8] - 更新终端界面并推出原生VS Code扩展,为API增加上下文编辑功能和记忆工具 [8] - 在应用程序中集成代码执行和文件创建功能,可直接生成电子表格、幻灯片和文档 [8] - 为Max用户提供Claude for Chrome扩展,支持在浏览器中直接操作网站和填写表格 [8][11] 开发者工具与架构 - 发布Claude Agent SDK,提供构建AI智能体的基础工具和架构 [4][35] - 智能体能够管理长时间运行任务的内存,处理权限系统平衡自主性与用户控制 [34] - 模型在复杂多步骤任务上可保持专注超过30小时 [7] 模型安全与对齐 - Claude Sonnet 4.5被称为Anthropic最符合对齐要求的前沿模型,在多个对齐领域有显著改进 [5][27] - 大幅减少谄媚、欺骗、争取主导权等行为,在抵御提示注入攻击方面取得进展 [27] - 在AI安全等级3保护措施下发布,包含检测化学、生物、放射性风险的分类器 [32] 市场定价与可用性 - Claude Sonnet 4.5定价与Sonnet 4版本一致,每百万token输入/输出分别为3美元/15美元 [5] - "Imagine with Claude"研究预览版将在未来五天内面向Max订阅用户开放 [36][38]