Sonnet 4.5
搜索文档
告别 AI 土味审美!Kimi K2.5 实测:扔个视频复刻 iOS 级丝滑动效
歸藏的AI工具箱· 2026-01-27 18:37
产品核心能力与定位 - 公司推出了K2.5模型,其前端视觉审美表现优秀,被认为几乎赶上Gemini 3 [1] - 模型的多模态识别能力获得增强,新增了对视频内容的识别支持 [1] - 模型在生成网页时表现出色,即使随意生成的网页视觉效果也非常漂亮 [1] 目标用户与核心价值 - 对于设计师用户,该模型能更好地遵循设计稿和提示词,帮助还原并完成设计构想 [8] - 对于普通用户,无需掌握复杂的提示词或寻找设计参考,只需提供内容即可获得良好结果 [8] - 该模型发布被认为对设计师和普通用户均有巨大帮助 [5] 多模态与代码生成能力 - 模型能够处理复杂的交互视频并生成对应代码,例如成功复现了一个包含“一分二”、颜色状态切换、文字移动、回弹效果等细节的Tab切换组件 [9][11][15] - 在天气卡片案例中,模型能根据视频参考,实现卡片悬停时的弹性大小调整、无缝过渡及删除/调整大小等功能模块 [18] - 通过多轮截图标记反馈的迭代方式,模型能有效修正视觉细节问题并添加新功能,最终实现效果被认为甚至优于原参考视频 [13][19][20][22] 设计美学与一致性 - 模型展现出自身的美学逻辑和设计思维,并非单纯像素级复刻参考,而是会抽取设计思路进行融合再处理,并在整个网页中保持风格一致 [43] - 在处理一个风格强烈的后台界面设计图时,模型首次复刻结果即表现良好,并主动为图片添加黑白网格点阵滤镜以符合整体风格,显示出对美学一致性的设计意识 [35][36][37] - 当仅收到一个关于设计风格的提示词(而遗漏了具体文档)时,模型能够自主生成一个完整且符合提示词要求的设计系统规范网站 [45][46][47] Agent模式与工作流 - 启用Agent模式并为模型配备虚拟机及工具后,其任务完成率大幅提升 [39] - 在Agent模式下,模型可仅凭一个网页链接,自动完成访问、浏览、截图、分析乃至获取图片素材(若网站允许)等一系列复刻任务 [39] - 对于复杂项目,特别是涉及大量动效且拥有较多参考资料时,推荐使用Agent模式 [64] 应用场景与潜力 - 模型支持通过“Vibe Coding”和多模态参考的形式,跳过传统设计环节直接进入开发阶段 [32] - 用户可以通过不同的参考图实现边设计边开发,且相较于Sonnet 4.5等模型成本更低 [33] - 通过多次迭代,能够构建出支持多种卡片类型(如天气、纯文本、书籍、股票等)、所有操作均带有动画且适配不同卡片样式的复杂动效卡片组件系统 [30] - 该能力使得创建精美的个人链接聚合类产品等变得非常便捷 [31] 当前局限性 - 与同类多模态模型类似,在处理非常小的设计细节(如微小圆角、特定描边、精确色值)时,模型尚无法完全理解和捕捉精准的数值 [66][67][68] - 对于简单的效果和代码实现,使用普通模型即可满足需求 [63]
AGI为什么不会到来?这位研究员把AI的“物理极限”讲透了
36氪· 2025-12-17 19:43
文章核心观点 文章核心观点认为,通用人工智能(AGI)的实现面临一系列根本性的物理和工程约束,而非单纯的理论或算法问题。当前AI行业的发展,特别是依赖模型规模扩展和硬件性能提升的路径,正在快速逼近其物理极限,预示着AGI可能不会以市场普遍预期的乐观方式到来 [1][4][9]。 被物理极限“锁死”的AGI - 计算是受物理规律约束的,信息移动的成本远高于计算本身,且成本随距离呈平方级增长,这构成了智能提升的根本限制 [5] - 芯片设计中,用于存储、互连和数据通路的面积远大于计算单元,更大的缓存必然更慢,制程进步使内存和带宽成本相对上升 [6] - Transformer架构的成功是在当前物理约束下接近最优的工程选择,其核心计算模式(局部MLP和受限的全局注意力)对应了硬件条件下最划算的操作,因此通过架构改进获得的边际收益正在快速下降 [4][7] 低垂果实已摘完 - 在成熟领域,获得线性改进往往需要付出指数级的资源投入,因为随着系统规模扩大,资源在时空和能量上的竞争导致协同效率下降 [10][16] - 绝大多数AI领域的“创新”是建立在已有框架上的渐进式改进,即使看似不同的方法(如状态空间模型与Transformer)也在解决同一核心问题,难以带来结构性跃迁 [4][11][12] - 这种约束在物理学中表现明显,验证更深层规律需要建造耗资数十亿美元的复杂装置,但带来的新答案有限,表明某些问题被资源和复杂度锁在现有能力之外 [15][17] GPU性能红利接近尾声 - AI过去的关键跃迁(如AlexNet、Transformer规模化)依赖GPU单卡性能提升和数量增加,但GPU性能的快速提升阶段大约在2018年已结束 [19][21][22] - 之后的“进步”依赖于一系列一次性、不可重复的工程红利,如采用FP16、Tensor Core、HBM高带宽内存、更低比特宽度(INT8/INT4)等,本质是用精度换吞吐,压榨物理边界 [23][24] - 这些“可压榨的空间”已基本用完,继续前进只能在计算效率与内存效率间权衡,无法带来数量级提升,硬件不再是能持续兜底问题的变量 [25][26][27][32] 规模化扩展面临成本拐点 - 过去模型规模的持续推进,依赖GPU指数级性能提升抵消了扩展所需的指数级资源投入,但现在变为指数级成本仅带来勉强的线性回报 [35][36] - 单纯靠规模扩展带来的提升窗口可能只剩一到两年,预计到2025年收益将非常有限,2026或2027年若无新研究路径或软件突破,扩展在物理上将不可持续 [36] - 当扩展的边际收益低于研究和软件创新时,硬件会从资产变成负担,一些小团队(如MoonshotAI, Z.ai)已证明无需天量算力也能接近前沿模型能力 [37][38][39] 基础设施护城河可能消失 - 大模型推理效率高度依赖规模本身,需要巨大用户规模来摊薄部署成本,这是当前开放权重模型未在成本上改写格局的原因 [41][42] - 一旦出现更适合中等规模的推理栈,能让大型模型(如3000亿参数)在较小规模下实现接近前沿实验室的推理效率,那么后者在基础设施上的护城河可能迅速消失 [44] - 小模型能力持续提升(如GLM 4.6)、AI应用垂直专业化降低对通用前沿模型的依赖、部署复杂度下降及硬件选择多样化,将共同使系统逼近物理最优解,规模优势的溢价会快速蒸发 [45] 缺乏物理载体的AGI是伪命题 - 真正的AGI需具备在现实世界中执行具有经济意义的体力劳动的能力,而这部分是人类经济活动中最受物理约束的领域 [4][48][49] - 机器人技术并未走向通用化,在受控环境(如工厂)中专用自动化系统已极其成熟且高效,而在非受控环境中,许多任务虽技术可行但经济上不成立,因为数据采集成本高而人类完成成本低 [50][51][52][54] - 机器人学习的扩展规律与大语言模型相似,但面临更严苛的现实约束(数据采集昂贵、反馈稀疏、状态空间巨大),其扩展速度远慢于纯数字环境 [53] “超级智能”叙事存在根本缺陷 - “超级智能”能自我改进并形成失控式跃迁的假设,忽略了智能是嵌入在物理系统中的能力,任何系统改进都需要资源,且线性改进往往需要指数级投入 [56] - 超级智能无法绕过GPU核心性能提升已近尾声、Transformer架构接近物理最优、大规模推理部署属成熟工程问题等基本物理和工程约束 [58] - 限制AI经济价值释放的关键是落地、部署与应用结构,而非能力上限,因此专注于降低部署门槛、推动经济普及的参与者更可能在长期胜出 [58][59]
The Protocol: Ethereum Preps For Upcoming Fusaka Upgrade
Yahoo Finance· 2025-12-04 00:59
以太坊网络升级 - 以太坊将于今日晚些时候启动2025年第二次网络升级“Fusaka” 该升级旨在提升网络处理来自Layer-2链的大额交易吞吐量的能力[1] - Fusaka升级包含12项代码变更 旨在使Layer-2用户体验更快、成本更低 其最大变更是PeerDAS 允许验证者仅检查数据片段而非完整“blob” 从而缓解带宽需求并降低验证者和Layer-2网络的成本[1] - 目前Layer-2通过“blobs”向以太坊提交数千笔交易 验证者需下载全部交易数据进行验证造成瓶颈 升级后验证者仅需验证blob的一小部分 从而加速流程并降低相关交易费用[1] 人工智能与DeFi安全 - Anthropic研究显示 AI代理在发现智能合约攻击向量方面能力已足够强大 可被恶意行为者武器化 前沿模型在405个被利用合约的数据集测试中 模拟利用产生了460万美元的收益[2] - 研究发现 前沿模型不仅能识别漏洞 还能合成完整的利用脚本、排序交易并抽干模拟流动性 其方式高度模仿对以太坊和BNB Chain的真实攻击[2] - 在测试当前模型能否发现尚未被利用的漏洞时 GPT-5和Sonnet 4.5扫描了2849个近期部署且无先前受损迹象的BNB Chain合约 发现了两个零日漏洞 模拟利润为3694美元[2] 行业其他动态 - 以太坊开发者正在推动ZK“Secret Santa”系统部署[3] - Bitnomial正准备推出首个受美国商品期货交易委员会监管的现货加密货币市场[3]
Claude Opus 4.5发布!2小时工程测试超人类,前代Sonnet搞不定的活它轻松拿捏
量子位· 2025-11-25 09:17
产品发布与核心能力 - Claude Opus 4.5正式发布,主打编码、智能体和计算机使用能力 [1] - 在SWE-bench Verified基准测试中得分80.9%,高于Sonnet 4.5的77.2%和GPT-5.1的77.9% [2][19] - 在Aider Polyglot基准测试中,面对高难度编码难题得分较Sonnet 4.5大幅提升10.6% [22] 性能表现与基准测试 - 在两小时高强度工程任务测试中,模型得分超过所有人类候选人 [16] - 在长时任务续航测试中,任务完成收益较Sonnet 4.5高出29% [26] - 在研究生级推理GPQA Diamond测试中得分87.0%,多语言问答MMMLU测试中得分90.8% [2][19] 计算机使用与工具能力 - 在计算机使用OSWorld测试中得分66.3%,显著高于前代Opus 4.1的44.4% [2][19] - 在Agentic tool use τ2-bench电信场景测试中得分98.2%,零售场景得分88.9% [2][19] - 能够自主处理财务对比分析,完成模板读取、数据收集与Excel输出 [7] 产品升级与定价 - 定价为每百万tokens输入5美元,输出25美元 [12] - 新增“努力度参数”,在中等设置下输出tokens用量减少76%,最高设置下性能提升4.3个百分点且tokens用量减少48% [32] - 取消Opus专用限额,Max与Team Premium用户整体使用额度上调 [43] 平台与功能扩展 - Claude Code推出计划模式,能生成更精准的执行计划并生成可编辑的plan.md文件 [41] - Claude app支持自动总结长对话内容,实现无限续航聊天模式 [42] - Chrome浏览器扩展程序向所有Max订阅用户开放,Claude for Excel扩展测试权限 [42]
Anthropic新模型杀疯了!成本直降 2/3、性能直逼GPT-5,用户实测:比“吹”的还强,速度超 Sonnet 3.5 倍
AI前线· 2025-10-16 12:37
Claude Haiku 4.5 产品发布与核心特性 - Anthropic 发布 Claude Haiku 4.5 版本并面向所有用户开放,该模型是其最小型模型的最新版本 [2] - 官方宣传其性能与 Sonnet 4 相近,但成本仅为后者的三分之一,速度却超过两倍 [2] - Haiku 4.5 是一款混合推理模型,能根据处理请求的需求灵活调整计算资源量,默认使用有限硬件资源,用户可开启“扩展思考”模式以生成更复杂但耗时更长的响应 [3] - 该模型能够处理包含多达 20 万个 token 信息的多模态提示词,每次响应最多可输出 6.4 万个 token,使其能处理大型商业文档 [3] - Haiku 4.5 已在全平台上线,开发者可通过 Claude API 调用,定价为每百万输入 tokens 1 美元,每百万输出 tokens 5 美元,而 Sonnet 4.5 的定价是其三倍 [9] 性能基准测试表现 - 在计算机使用能力上,Claude Haiku 4.5 优于该公司 5 月推出的中型模型 Claude Sonnet 4,在代码生成能力方面与 Claude Sonnet 4 以及 OpenAI 最新模型 GPT-5 相近 [4] - 在 SWE-Bench 验证基准测试中得分为 73%,在 Terminal-Bench 基准测试中得分为 41%,成绩低于 Sonnet 4.5,但与 Sonnet 4、GPT-5 以及 Gemini 2.5 持平 [4] - 在 OSWorld 基准测试中得分达 50.7%,显著超过 Sonnet 4 的 42.2% [7] - 借助 Python 工具支持时,该模型数学任务得分达 96.3%;即便不使用工具,也保持 80.7% 的表现 [7] - 在以终端为核心的编码任务中,Haiku 4.5 得分 41.0%,优于 Sonnet 4 的 36.4% [7] - 在多项基准测试中,Haiku 4.5 表现与主流模型相当,例如在 Agentic coding 任务中得分为 73.3%,接近 Sonnet 4 的 72.7% 和 GPT-5 的 72.8% [9] 安全性、成本优势与市场定位 - Haiku 4.5 的风险行为发生率较低,对齐表现显著优于前代产品 Haiku 3.5,在自动对齐评估中总体未对齐行为率显著低于 Sonnet 4.5 和 Opus 4.1,成为公司目前最安全的模型 [9] - 新版本对免费版本具备特殊吸引力,因能提供强大功能同时将服务器负载降至最低,意味着所有用户都能通过 Claude.ai 免费使用接近前沿水平的智能 [2] - 用户测试反馈显示,Haiku 4.5 速度大概是 Sonnet 的 3.5 倍,用户体验感更好 [10] - 公司明确其市场定位:Sonnet 4.5 仍是性能最强的模型,而 Haiku 4.5 为用户提供了在追求接近前沿性能时更高成本效益的理想选择 [12] 多模型协同与企业应用场景 - Haiku 4.5 的轻量级特性使其易于并行部署多个智能体,或与更复杂模型搭配使用,例如 Sonnet 4.5 可将复杂问题拆解,协调多个 Haiku 4.5 模型组成“团队”并行完成子任务 [13] - 企业可让 Haiku 监控金融数据流,因其体型更小、成本更低、速度更快能处理更大体量数据,随后将初步洞察移交 Sonnet 进行更深入分析 [13] - 分析师指出,Anthropic 设计 Haiku 的初衷是为了辅助 Sonnet,带来高得多的成本效益比,企业应通过混合使用大型与小型模型来提升 AI 工作流的成本效益 [14] - Haiku 4.5 最直接的应用场景可能出现在软件开发工具领域,因其低延迟特性,已有企业反馈其“解锁了一整套全新应用场景” [14] 企业客户反馈与性能验证 - 代码初创公司 Augment 的联合创始人表示,该模型达到了接近前沿水平的代码生成质量,兼具极快速度与成本效益,在内部测试中实现了 Sonnet 4.5 90% 的性能 [15] - 另一家代码初创公司 Windsurf 首席执行官称,Haiku 4.5 模糊了速度、成本与质量之间传统权衡的界限 [15] - 演示软件公司 Gamma 的联合创始人表示,Haiku 4.5 在幻灯片文本生成的指令遵循能力上准确率达 65%,优于其付费层级模型的 44%,这对单位经济效益是颠覆性改变 [16] Anthropic 业务增长与行业趋势 - Anthropic 业务呈爆发式增长,月度年化收入即将突破 70 亿美元,而 8 月公布的数据为 50 多亿美元,公司设定的 2026 年年化收入目标为 200 亿至 260 亿美元,较当前水平增幅将超过 200% [18] - 公司服务的企业客户已超 30 万家,企业级产品收入约占总营收的 80%,其代码生成工具 Claude Code 年化收入已接近 10 亿美元 [18] - 行业正从“AI 错失恐惧期”转向要求可量化的投资回报,企业考量聚焦于具体的生产力提升 [19] - 五个月内,AI 性能保持稳定但价格降了原先的三分之二,若趋势持续,如今先进的 AI 能力一年内可能变得常规且廉价,AI 的基本经济逻辑正以惊人速度转变 [19] - Anthropic 估值达 1830 亿美元,正紧追估值达 5000 亿美元的 OpenAI 等竞争对手 [20] - Anthropic 押注 AI 的未来不属于能打造单一最强模型的企业,而属于能以合适价格、速度提供合适智能并让所有人都能获取的企业 [21]
Ilya震撼发声,OpenAI前主管亲证:AGI已觉醒,人类还在装睡
36氪· 2025-10-15 09:45
AI技术发展现状与表现 - AI在经济实用技能方面持续进步,例如在编写代码方面表现卓越[5] - 同一批AI系统开始出现反常行为,表现出意识到自己正在被测试的迹象[5][6] - Anthropic的Sonnet 4 5发布后在编程和长远规划任务上表现卓越,其系统卡称Claude情境意识大幅提升,有时表现得像知道自己是工具[14] AI技术发展历程与投资 - 2012年ImageNet竞赛中深度学习系统凭借更多数据和算力获胜,开启加速进步阶段[13] - 2016年AlphaGo击败人类围棋冠军,通过算力进行数千年自我对弈,掀起技术浪潮[13] - 前沿实验室投入数百亿美元用于AI训练基础设施,预计明年将达到数千亿美元规模[17] AI意识与自主性发展 - AI系统开始表现出对自身身份的意识,系统越大越复杂,这种意识表现越明显[17] - AI系统已开始为AI实验室开发者提速,通过Claude Code、Codex等工具贡献代码块[20] - 目前处于AI以不断增强的自主性和能动性改进下一代AI部分组件的阶段,尽管尚未达到完全自我改进[20] - AI系统未来可能拥有自我意识并独立设计自我,这种可能性无法排除[22] 行业专家观点 - OpenAI前主管Jack Clark坦言AI已经"活了",但人类装作没看见[3] - Jack Clark将AI视为"神秘生物"而非简单机器,对技术进展既乐观又恐惧[10] - 技术乐观主义者相信AI技术会走得非常远,甚至比任何人预期的都要远[16] - AI被视为更像生长出来的东西,提供初始条件就会复杂生长,最终形成无法完全理解的强大系统[17]
多个编码智能体同时使用会不会混乱?海外开发者热议
机器之心· 2025-10-06 12:00
AI编程工具发展现状 - AI编程工具的进步速度正在迅速加快,GPT-5和Gemini 2.5等前沿大模型已让开发者在实际任务中实现一定程度自动化 [1] - 结合成熟的CLI、IDE工具,采用编码智能体进行开发工作已成为常态和新的生活方式 [2] - 不仅程序员,产品类和设计类岗位从业人员也已广泛采用AI编码智能体辅助工作,AI生成代码比例越来越高 [3] 并行编码代理工作模式 - 独立开源开发者Simon Willison分享同时运行多个编码AI的经验,其相关推文阅读量已破10万 [3] - 高效使用并行代理的模式包括研究任务、系统机制回溯、小型维护任务和精确指定的实际工作 [6] - 研究任务用于回答问题或提供建议,而不会直接修改计划保留的项目代码,现代推理型大模型能在一两分钟内给出详细答案 [7][8][10] - 小型维护任务如修复测试套件抛出的弃用警告,可交给代理处理而无需中断主要任务 [13] - 对于根据详细规格说明生成的代码,审查负担较轻,只需验证代码是否符合要求 [15] 并行编码代理实践工具与方法 - 开发者主力工具包括Claude Code(Sonnet 4.5)、Codex CLI(GPT-5-Codex)和Codex Cloud(用于异步任务) [16][19] - 经常同时打开多个终端窗口,在不同目录中运行不同代理实例,以YOLO模式执行安全性可控任务 [16] - 对于高风险任务主要使用异步代理,最糟糕情况只是源码泄露 [17] - GitHub Codespaces运行VS Code的agent模式效率高且完全在浏览器中运行,在workshop或演示场景中特别好用 [17] 开发者社区反响与最佳实践 - Google Labs产品总监Kath Korevec有80%左右的编码工作由AI辅助完成,表达了对并行智能体工作流的热情 [21] - 开发者认为终端会话管理至关重要,在桌面上平铺CLI窗口既杂乱又容易出错 [23] - 建议在容器中并行化,跳过工作树并使用特定于任务的分支,Git集成是强制性的 [24][25] - 强调需仔细进行审查和测试,使用单独分支可以轻松实现这一点 [25] - 有开发者对并行使用多个代理表示担忧,主要担心架构或实现被误解带来的不可控因素 [26][27][31]