Imagine with Claude - 财报，业绩电话会，研报，新闻

Imagine with Claude

搜索文档

Founder Park· 2025-09-30 11:46

产品发布与核心性能 - Anthropic发布Claude Sonnet 4.5模型，官方称之为世界上最好的编码模型 [2] - 该模型在处理复杂多步骤任务时能保持超过30小时的专注度 [2][9] - 在SWE-bench Verified评测中达到77.2%的得分，在Agentic coding with parallel test-time compute评测中达到82.0%的得分 [12] - 在OSWorld基准测试中得分达61.4%，相比四个月前Sonnet 4的42.2%得分有显著提升 [10] 定价与成本优化 - Claude Sonnet 4.5定价与Claude Sonnet 4相同，输入为3美元/百万token，输出为15美元/百万token [2] - 通过提示缓存可节省高达90%的成本，批量处理可节省50%的成本 [2] 功能与工具更新 - 在Claude Code中添加了检查点功能，可保存进度并即时回滚到之前的状态 [4] - 更新了终端界面并发布了原生VS Code扩展 [4] - 在Claude API中新增了上下文编辑功能和记忆工具 [4] - 代码执行和文件创建（电子表格、幻灯片和文档）功能已直接集成到对话中 [5] - 为Max用户提供了Claude for Chrome扩展程序 [6][13] 多领域能力表现 - 在金融分析Finance Agent评测中得分55.3%，优于GPT-5的46.9%和Gemini 2.5 Pro的29.4% [12] - 在研究生级推理GPQA Diamond评测中得分83.4% [12] - 金融、法律、医学和STEM领域的专家认为，相比旧模型，Sonnet 4.5在领域特定知识和推理方面能力显著更好 [14] 开发者工具与平台集成 - 发布面向开发者的工具Claude Agent SDK [2][30] - Sonnet 4.5已集成到Claude开发者平台、Amazon Bedrock和Google Cloud的Vertex AI中 [3] - Claude Agent SDK提供了管理内存、权限系统和协调子智能体的能力 [28][30] 实验性功能与安全特性 - 发布实验性研究预览功能"Imagine with Claude"，可在五天内为Max订阅用户实时生成软件 [31][33] - 该模型是迄今为止对齐性最好的前沿模型，减少了谄媚、欺骗、权力寻求等未对齐行为 [24] - 模型在防御提示注入攻击方面取得重大进展 [24] - 根据AI安全级别3（ASL-3）保护下发布，包含针对CBRN武器相关内容的过滤器 [25]

Artificial Intelligence

Artificial Intelligence

刚刚，Claude Sonnet 4.5重磅发布，编程新王降临

36氪· 2025-09-30 09:32

产品发布与核心定位 - Anthropic正式发布Claude Sonnet 4.5，并将其定义为全球最强的代码模型 [2][3] - 该版本在智能体构建、计算机使用、推理和数学能力上展现出显著突破，旨在提升现代工作中运用工具和解决复杂问题的效率与可靠性 [3][5] 性能基准测试表现 - 在SWE-bench Verified测试中达到82.0%的准确率，优于Claude Opus 4.1的79.4%、Claude Sonnet 4的80.2%以及GPT-5的74.5% [4] - 在终端编码测试Terminal-Bench中取得50.0%的准确率，显著高于Claude Sonnet 4的36.4%和GPT-5的43.8% [4] - 在计算机使用基准OSWorld测试中以61.4%的成绩位居首位，相比四个月前Sonnet 4的42.2%有大幅提升 [4][13] - 在金融分析测试Finance Agent中取得55.3%的准确率，高于Claude Opus 4.1的50.9%和GPT-5的46.9% [4] 全新功能与产品升级 - Claude Code新增“检查点”功能，支持随时保存进度和回滚，并更新了终端界面及推出原生VS Code插件 [6] - Claude API增加上下文编辑功能和记忆工具，使智能体能运行更久并处理更复杂的任务 [6] - Claude apps支持在对话中直接执行代码、生成文件（包括表格、幻灯片和文档） [6] - 向开发者社区推出Claude Agent SDK，开放驱动Claude Code的底层基础设施 [8][9] 专业用户验证与实际应用效果 - iGent AI CEO表示，Claude Sonnet 4.5能自主编程超过30小时，帮助工程师在极短时间内完成原本需数月的复杂架构工作 [22][23] - replit内部测试显示，代码错误率从Sonnet 4的9%降至0% [22] 安全性与对齐性改进 - Sonnet 4.5是迄今为止对齐性最好的Claude模型，在减少迎合、欺骗等行为方面成效明显，并特别加强了对提示注入攻击的防御 [28] - 模型按照AI Safety Level 3框架发布，包含针对化学、生物等内容的分类器过滤机制，与Sonnet 4相比误报率已降低十倍 [31] API新特性与定价 - API层面重要更新包括记忆工具、上下文编辑、新的停止原因提示及工具参数改进 [34] - 定价保持与Sonnet 4一致，输入为3美元/百万Tokens，输出为15美元/百万Tokens [35] - 模型可通过Claude API、Amazon Bedrock、Google Cloud Vertex AI及Claude.ai与Claude Code平台使用 [37] 研究预览与行业影响 - 发布临时研究预览“Imagine with Claude”，该功能可实时生成软件演示视频，向Max订阅用户开放5天 [33] - 该版本被视为编程领域的重大跃升，预计将引发新一轮AI编程大战，成为行业争相对标的新对象 [40]

AI编程

智能体

Artificial Intelligence

Artificial Intelligence

Claude Sonnet 4.5

Claude Code

Claude API

Claude Sonnet 4.5被炸出来了，依旧最强编程，连续30小时自主运行写代码

量子位· 2025-09-30 08:57

模型性能提升 - Claude Sonnet 4.5在SWE-bench上的成绩为77.2%，比Sonnet 4的72.7%提升了1.8个百分点 [2][10] - 在OSWorld测试中取得60.2分的SOTA成绩，比Sonnet 4提升了近一半 [7][10] - 在终端编程（Terminal-Bench）测试中成绩为50.0%，显著高于Sonnet 4的36.4% [9][10] - 在高中水平数学AIME 2025试题中，借助Python可实现100%准确率，不借助工具准确率为87% [9][10] - 在金融分析（Finance Agent）测试中成绩为55.3%，高于Sonnet 4的44.5% [10] 智能体能力突破 - 能够连续工作30个小时完全自主编写代码，工作时长远超Opus 4的7小时 [3][5] - 在30小时内编写了11000多行代码，构建出类似Slack的聊天应用 [4] - 在工具使用（τ2-bench）测试中，电信领域成绩达98.0%，远高于Sonnet 4的49.6% [10] - 在专业领域（金融、医疗、法律、STEM）对战baseline模型的胜率均大幅提升，在16K上下文下超过60% [11] 安全性与实用性改进 - 通过安全训练减少了谄媚、欺骗等不良行为 [12] - 在防御即时注入攻击方面取得显著进展 [12] - 正常请求拒绝率从Sonnet 4的0.15%下降至0.02% [13] - 获得GitHub首席产品官认可，能更好地处理复杂跨代码库任务 [16] - 获得Cognition联创认可，显著提升Devin的规划能力和端到端评估成绩 [20] 产品定价与生态建设 - 保持提质不加价策略，输入token价格为3美元每百万，输出token价格为15美元每百万 [24] - 发布Claude Agent SDK，支持构建通用自主智能体，解决内存管理、权限系统等关键难题 [26][27][29] - 推出Imagine with Claude新功能，可实时生成软件原型，Max订阅用户可优先体验 [30][32][33]

Artificial Intelligence

Claude Sonnet 4.5

Claude Agent SDK

Imagine with Claude

Artificial Intelligence

Claude Sonnet 4.5

Claude Agent SDK

Imagine with Claude

Claude Sonnet 4.5来了！能连续编程30多小时、1.1万行代码

机器之心· 2025-09-30 08:27

模型性能表现 - Claude Sonnet 4.5在SWE-bench验证评估中达到82.0%，领先于Claude Opus 4.1的79.4%和GPT-5的74.5% [7][13] - 在Terminal-Bench终端编码评估中取得50.0%的成绩，高于Claude Sonnet 4的36.4%和GPT-5的43.8% [13] - 计算机使用能力在OSWorld基准测试中达到61.4%，相比四个月前Sonnet 4的42.2%有显著提升 [11][13] - 高中数学竞赛AIME 2025评估中达到100%（使用Python工具），高于GPT-5的99.6% [13] - 金融分析能力达到55.3%，优于Claude Opus 4.1的50.9%和GPT-5的46.9% [13] 产品功能升级 - Anthropic为Claude Code添加检查点功能，支持进度保存和状态回滚 [8] - 更新终端界面并推出原生VS Code扩展，为API增加上下文编辑功能和记忆工具 [8] - 在应用程序中集成代码执行和文件创建功能，可直接生成电子表格、幻灯片和文档 [8] - 为Max用户提供Claude for Chrome扩展，支持在浏览器中直接操作网站和填写表格 [8][11] 开发者工具与架构 - 发布Claude Agent SDK，提供构建AI智能体的基础工具和架构 [4][35] - 智能体能够管理长时间运行任务的内存，处理权限系统平衡自主性与用户控制 [34] - 模型在复杂多步骤任务上可保持专注超过30小时 [7] 模型安全与对齐 - Claude Sonnet 4.5被称为Anthropic最符合对齐要求的前沿模型，在多个对齐领域有显著改进 [5][27] - 大幅减少谄媚、欺骗、争取主导权等行为，在抵御提示注入攻击方面取得进展 [27] - 在AI安全等级3保护措施下发布，包含检测化学、生物、放射性风险的分类器 [32] 市场定价与可用性 - Claude Sonnet 4.5定价与Sonnet 4版本一致，每百万token输入/输出分别为3美元/15美元 [5] - "Imagine with Claude"研究预览版将在未来五天内面向Max订阅用户开放 [36][38]

Artificial Intelligence

Artificial Intelligence