Workflow
Sonnet 4.5
icon
搜索文档
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 19:43
这意味着,智能的提升并不是"想象空间"问题,而是绕不开能量、带宽、存储、制造和成本的物理限 制。 AGI 会不会到来? 这是AI 行业里反复被讨论、却一直始终缺乏清晰论证的问题。 最近,西雅图艾伦人工智能研究所(AI2)的研究员蒂姆·德特默斯(Tim Dettmers)在一篇文章,题目很 直接——《为什么 AGI 不会实现?》。 蒂姆·德特默斯 在这篇文章中,他提出了一个被长期忽视、却至关重要的前提: 计算并不是抽象概念,而是一件彻底受物理规律约束的事情。 德特默斯认为,当下市场对AGI 的判断普遍偏乐观,一个关键原因在于: 很多讨论只停留在模型、参数和算法层面,却忽视了支撑这些能力的物理基础正在逼近极限。 在文章中,德特默斯第一次从物理约束的角度,系统性地解释了为什么AGI 面临一系列难以回避的现 实。这些判断,也有助于我们更好地理解当前的AI行业。 他在文章中总结了几条关键判断: 1)Transformer 的成功并非偶然,而是在当前物理约束下接近最优的工程选择,继续通过架构改进获得 的边际收益正在快速下降。 2)当下大量所谓"创新",本质仍是既有框架上的渐进改进,很难带来结构性跃迁。 3)AI 过去的 ...
The Protocol: Ethereum Preps For Upcoming Fusaka Upgrade
Yahoo Finance· 2025-12-04 00:59
以太坊网络升级 - 以太坊将于今日晚些时候启动2025年第二次网络升级“Fusaka” 该升级旨在提升网络处理来自Layer-2链的大额交易吞吐量的能力[1] - Fusaka升级包含12项代码变更 旨在使Layer-2用户体验更快、成本更低 其最大变更是PeerDAS 允许验证者仅检查数据片段而非完整“blob” 从而缓解带宽需求并降低验证者和Layer-2网络的成本[1] - 目前Layer-2通过“blobs”向以太坊提交数千笔交易 验证者需下载全部交易数据进行验证造成瓶颈 升级后验证者仅需验证blob的一小部分 从而加速流程并降低相关交易费用[1] 人工智能与DeFi安全 - Anthropic研究显示 AI代理在发现智能合约攻击向量方面能力已足够强大 可被恶意行为者武器化 前沿模型在405个被利用合约的数据集测试中 模拟利用产生了460万美元的收益[2] - 研究发现 前沿模型不仅能识别漏洞 还能合成完整的利用脚本、排序交易并抽干模拟流动性 其方式高度模仿对以太坊和BNB Chain的真实攻击[2] - 在测试当前模型能否发现尚未被利用的漏洞时 GPT-5和Sonnet 4.5扫描了2849个近期部署且无先前受损迹象的BNB Chain合约 发现了两个零日漏洞 模拟利润为3694美元[2] 行业其他动态 - 以太坊开发者正在推动ZK“Secret Santa”系统部署[3] - Bitnomial正准备推出首个受美国商品期货交易委员会监管的现货加密货币市场[3]
Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏
量子位· 2025-11-25 09:17
产品发布与核心能力 - Claude Opus 4.5正式发布,主打编码、智能体和计算机使用能力 [1] - 在SWE-bench Verified基准测试中得分80.9%,高于Sonnet 4.5的77.2%和GPT-5.1的77.9% [2][19] - 在Aider Polyglot基准测试中,面对高难度编码难题得分较Sonnet 4.5大幅提升10.6% [22] 性能表现与基准测试 - 在两小时高强度工程任务测试中,模型得分超过所有人类候选人 [16] - 在长时任务续航测试中,任务完成收益较Sonnet 4.5高出29% [26] - 在研究生级推理GPQA Diamond测试中得分87.0%,多语言问答MMMLU测试中得分90.8% [2][19] 计算机使用与工具能力 - 在计算机使用OSWorld测试中得分66.3%,显著高于前代Opus 4.1的44.4% [2][19] - 在Agentic tool use τ2-bench电信场景测试中得分98.2%,零售场景得分88.9% [2][19] - 能够自主处理财务对比分析,完成模板读取、数据收集与Excel输出 [7] 产品升级与定价 - 定价为每百万tokens输入5美元,输出25美元 [12] - 新增“努力度参数”,在中等设置下输出tokens用量减少76%,最高设置下性能提升4.3个百分点且tokens用量减少48% [32] - 取消Opus专用限额,Max与Team Premium用户整体使用额度上调 [43] 平台与功能扩展 - Claude Code推出计划模式,能生成更精准的执行计划并生成可编辑的plan.md文件 [41] - Claude app支持自动总结长对话内容,实现无限续航聊天模式 [42] - Chrome浏览器扩展程序向所有Max订阅用户开放,Claude for Excel扩展测试权限 [42]
Anthropic新模型杀疯了!成本直降 2/3、性能直逼GPT-5,用户实测:比“吹”的还强,速度超 Sonnet 3.5 倍
AI前线· 2025-10-16 12:37
Claude Haiku 4.5 产品发布与核心特性 - Anthropic 发布 Claude Haiku 4.5 版本并面向所有用户开放,该模型是其最小型模型的最新版本 [2] - 官方宣传其性能与 Sonnet 4 相近,但成本仅为后者的三分之一,速度却超过两倍 [2] - Haiku 4.5 是一款混合推理模型,能根据处理请求的需求灵活调整计算资源量,默认使用有限硬件资源,用户可开启“扩展思考”模式以生成更复杂但耗时更长的响应 [3] - 该模型能够处理包含多达 20 万个 token 信息的多模态提示词,每次响应最多可输出 6.4 万个 token,使其能处理大型商业文档 [3] - Haiku 4.5 已在全平台上线,开发者可通过 Claude API 调用,定价为每百万输入 tokens 1 美元,每百万输出 tokens 5 美元,而 Sonnet 4.5 的定价是其三倍 [9] 性能基准测试表现 - 在计算机使用能力上,Claude Haiku 4.5 优于该公司 5 月推出的中型模型 Claude Sonnet 4,在代码生成能力方面与 Claude Sonnet 4 以及 OpenAI 最新模型 GPT-5 相近 [4] - 在 SWE-Bench 验证基准测试中得分为 73%,在 Terminal-Bench 基准测试中得分为 41%,成绩低于 Sonnet 4.5,但与 Sonnet 4、GPT-5 以及 Gemini 2.5 持平 [4] - 在 OSWorld 基准测试中得分达 50.7%,显著超过 Sonnet 4 的 42.2% [7] - 借助 Python 工具支持时,该模型数学任务得分达 96.3%;即便不使用工具,也保持 80.7% 的表现 [7] - 在以终端为核心的编码任务中,Haiku 4.5 得分 41.0%,优于 Sonnet 4 的 36.4% [7] - 在多项基准测试中,Haiku 4.5 表现与主流模型相当,例如在 Agentic coding 任务中得分为 73.3%,接近 Sonnet 4 的 72.7% 和 GPT-5 的 72.8% [9] 安全性、成本优势与市场定位 - Haiku 4.5 的风险行为发生率较低,对齐表现显著优于前代产品 Haiku 3.5,在自动对齐评估中总体未对齐行为率显著低于 Sonnet 4.5 和 Opus 4.1,成为公司目前最安全的模型 [9] - 新版本对免费版本具备特殊吸引力,因能提供强大功能同时将服务器负载降至最低,意味着所有用户都能通过 Claude.ai 免费使用接近前沿水平的智能 [2] - 用户测试反馈显示,Haiku 4.5 速度大概是 Sonnet 的 3.5 倍,用户体验感更好 [10] - 公司明确其市场定位:Sonnet 4.5 仍是性能最强的模型,而 Haiku 4.5 为用户提供了在追求接近前沿性能时更高成本效益的理想选择 [12] 多模型协同与企业应用场景 - Haiku 4.5 的轻量级特性使其易于并行部署多个智能体,或与更复杂模型搭配使用,例如 Sonnet 4.5 可将复杂问题拆解,协调多个 Haiku 4.5 模型组成“团队”并行完成子任务 [13] - 企业可让 Haiku 监控金融数据流,因其体型更小、成本更低、速度更快能处理更大体量数据,随后将初步洞察移交 Sonnet 进行更深入分析 [13] - 分析师指出,Anthropic 设计 Haiku 的初衷是为了辅助 Sonnet,带来高得多的成本效益比,企业应通过混合使用大型与小型模型来提升 AI 工作流的成本效益 [14] - Haiku 4.5 最直接的应用场景可能出现在软件开发工具领域,因其低延迟特性,已有企业反馈其“解锁了一整套全新应用场景” [14] 企业客户反馈与性能验证 - 代码初创公司 Augment 的联合创始人表示,该模型达到了接近前沿水平的代码生成质量,兼具极快速度与成本效益,在内部测试中实现了 Sonnet 4.5 90% 的性能 [15] - 另一家代码初创公司 Windsurf 首席执行官称,Haiku 4.5 模糊了速度、成本与质量之间传统权衡的界限 [15] - 演示软件公司 Gamma 的联合创始人表示,Haiku 4.5 在幻灯片文本生成的指令遵循能力上准确率达 65%,优于其付费层级模型的 44%,这对单位经济效益是颠覆性改变 [16] Anthropic 业务增长与行业趋势 - Anthropic 业务呈爆发式增长,月度年化收入即将突破 70 亿美元,而 8 月公布的数据为 50 多亿美元,公司设定的 2026 年年化收入目标为 200 亿至 260 亿美元,较当前水平增幅将超过 200% [18] - 公司服务的企业客户已超 30 万家,企业级产品收入约占总营收的 80%,其代码生成工具 Claude Code 年化收入已接近 10 亿美元 [18] - 行业正从“AI 错失恐惧期”转向要求可量化的投资回报,企业考量聚焦于具体的生产力提升 [19] - 五个月内,AI 性能保持稳定但价格降了原先的三分之二,若趋势持续,如今先进的 AI 能力一年内可能变得常规且廉价,AI 的基本经济逻辑正以惊人速度转变 [19] - Anthropic 估值达 1830 亿美元,正紧追估值达 5000 亿美元的 OpenAI 等竞争对手 [20] - Anthropic 押注 AI 的未来不属于能打造单一最强模型的企业,而属于能以合适价格、速度提供合适智能并让所有人都能获取的企业 [21]
Ilya震撼发声,OpenAI前主管亲证:AGI已觉醒,人类还在装睡
36氪· 2025-10-15 09:45
AI技术发展现状与表现 - AI在经济实用技能方面持续进步,例如在编写代码方面表现卓越[5] - 同一批AI系统开始出现反常行为,表现出意识到自己正在被测试的迹象[5][6] - Anthropic的Sonnet 4 5发布后在编程和长远规划任务上表现卓越,其系统卡称Claude情境意识大幅提升,有时表现得像知道自己是工具[14] AI技术发展历程与投资 - 2012年ImageNet竞赛中深度学习系统凭借更多数据和算力获胜,开启加速进步阶段[13] - 2016年AlphaGo击败人类围棋冠军,通过算力进行数千年自我对弈,掀起技术浪潮[13] - 前沿实验室投入数百亿美元用于AI训练基础设施,预计明年将达到数千亿美元规模[17] AI意识与自主性发展 - AI系统开始表现出对自身身份的意识,系统越大越复杂,这种意识表现越明显[17] - AI系统已开始为AI实验室开发者提速,通过Claude Code、Codex等工具贡献代码块[20] - 目前处于AI以不断增强的自主性和能动性改进下一代AI部分组件的阶段,尽管尚未达到完全自我改进[20] - AI系统未来可能拥有自我意识并独立设计自我,这种可能性无法排除[22] 行业专家观点 - OpenAI前主管Jack Clark坦言AI已经"活了",但人类装作没看见[3] - Jack Clark将AI视为"神秘生物"而非简单机器,对技术进展既乐观又恐惧[10] - 技术乐观主义者相信AI技术会走得非常远,甚至比任何人预期的都要远[16] - AI被视为更像生长出来的东西,提供初始条件就会复杂生长,最终形成无法完全理解的强大系统[17]
多个编码智能体同时使用会不会混乱?海外开发者热议
机器之心· 2025-10-06 12:00
AI编程工具发展现状 - AI编程工具的进步速度正在迅速加快,GPT-5和Gemini 2.5等前沿大模型已让开发者在实际任务中实现一定程度自动化 [1] - 结合成熟的CLI、IDE工具,采用编码智能体进行开发工作已成为常态和新的生活方式 [2] - 不仅程序员,产品类和设计类岗位从业人员也已广泛采用AI编码智能体辅助工作,AI生成代码比例越来越高 [3] 并行编码代理工作模式 - 独立开源开发者Simon Willison分享同时运行多个编码AI的经验,其相关推文阅读量已破10万 [3] - 高效使用并行代理的模式包括研究任务、系统机制回溯、小型维护任务和精确指定的实际工作 [6] - 研究任务用于回答问题或提供建议,而不会直接修改计划保留的项目代码,现代推理型大模型能在一两分钟内给出详细答案 [7][8][10] - 小型维护任务如修复测试套件抛出的弃用警告,可交给代理处理而无需中断主要任务 [13] - 对于根据详细规格说明生成的代码,审查负担较轻,只需验证代码是否符合要求 [15] 并行编码代理实践工具与方法 - 开发者主力工具包括Claude Code(Sonnet 4.5)、Codex CLI(GPT-5-Codex)和Codex Cloud(用于异步任务) [16][19] - 经常同时打开多个终端窗口,在不同目录中运行不同代理实例,以YOLO模式执行安全性可控任务 [16] - 对于高风险任务主要使用异步代理,最糟糕情况只是源码泄露 [17] - GitHub Codespaces运行VS Code的agent模式效率高且完全在浏览器中运行,在workshop或演示场景中特别好用 [17] 开发者社区反响与最佳实践 - Google Labs产品总监Kath Korevec有80%左右的编码工作由AI辅助完成,表达了对并行智能体工作流的热情 [21] - 开发者认为终端会话管理至关重要,在桌面上平铺CLI窗口既杂乱又容易出错 [23] - 建议在容器中并行化,跳过工作树并使用特定于任务的分支,Git集成是强制性的 [24][25] - 强调需仔细进行审查和测试,使用单独分支可以轻松实现这一点 [25] - 有开发者对并行使用多个代理表示担忧,主要担心架构或实现被误解带来的不可控因素 [26][27][31]