Opus 4.1
搜索文档
Anthropic新模型杀疯了!成本直降 2/3、性能直逼GPT-5,用户实测:比“吹”的还强,速度超 Sonnet 3.5 倍
AI前线· 2025-10-16 12:37
Claude Haiku 4.5 产品发布与核心特性 - Anthropic 发布 Claude Haiku 4.5 版本并面向所有用户开放,该模型是其最小型模型的最新版本 [2] - 官方宣传其性能与 Sonnet 4 相近,但成本仅为后者的三分之一,速度却超过两倍 [2] - Haiku 4.5 是一款混合推理模型,能根据处理请求的需求灵活调整计算资源量,默认使用有限硬件资源,用户可开启“扩展思考”模式以生成更复杂但耗时更长的响应 [3] - 该模型能够处理包含多达 20 万个 token 信息的多模态提示词,每次响应最多可输出 6.4 万个 token,使其能处理大型商业文档 [3] - Haiku 4.5 已在全平台上线,开发者可通过 Claude API 调用,定价为每百万输入 tokens 1 美元,每百万输出 tokens 5 美元,而 Sonnet 4.5 的定价是其三倍 [9] 性能基准测试表现 - 在计算机使用能力上,Claude Haiku 4.5 优于该公司 5 月推出的中型模型 Claude Sonnet 4,在代码生成能力方面与 Claude Sonnet 4 以及 OpenAI 最新模型 GPT-5 相近 [4] - 在 SWE-Bench 验证基准测试中得分为 73%,在 Terminal-Bench 基准测试中得分为 41%,成绩低于 Sonnet 4.5,但与 Sonnet 4、GPT-5 以及 Gemini 2.5 持平 [4] - 在 OSWorld 基准测试中得分达 50.7%,显著超过 Sonnet 4 的 42.2% [7] - 借助 Python 工具支持时,该模型数学任务得分达 96.3%;即便不使用工具,也保持 80.7% 的表现 [7] - 在以终端为核心的编码任务中,Haiku 4.5 得分 41.0%,优于 Sonnet 4 的 36.4% [7] - 在多项基准测试中,Haiku 4.5 表现与主流模型相当,例如在 Agentic coding 任务中得分为 73.3%,接近 Sonnet 4 的 72.7% 和 GPT-5 的 72.8% [9] 安全性、成本优势与市场定位 - Haiku 4.5 的风险行为发生率较低,对齐表现显著优于前代产品 Haiku 3.5,在自动对齐评估中总体未对齐行为率显著低于 Sonnet 4.5 和 Opus 4.1,成为公司目前最安全的模型 [9] - 新版本对免费版本具备特殊吸引力,因能提供强大功能同时将服务器负载降至最低,意味着所有用户都能通过 Claude.ai 免费使用接近前沿水平的智能 [2] - 用户测试反馈显示,Haiku 4.5 速度大概是 Sonnet 的 3.5 倍,用户体验感更好 [10] - 公司明确其市场定位:Sonnet 4.5 仍是性能最强的模型,而 Haiku 4.5 为用户提供了在追求接近前沿性能时更高成本效益的理想选择 [12] 多模型协同与企业应用场景 - Haiku 4.5 的轻量级特性使其易于并行部署多个智能体,或与更复杂模型搭配使用,例如 Sonnet 4.5 可将复杂问题拆解,协调多个 Haiku 4.5 模型组成“团队”并行完成子任务 [13] - 企业可让 Haiku 监控金融数据流,因其体型更小、成本更低、速度更快能处理更大体量数据,随后将初步洞察移交 Sonnet 进行更深入分析 [13] - 分析师指出,Anthropic 设计 Haiku 的初衷是为了辅助 Sonnet,带来高得多的成本效益比,企业应通过混合使用大型与小型模型来提升 AI 工作流的成本效益 [14] - Haiku 4.5 最直接的应用场景可能出现在软件开发工具领域,因其低延迟特性,已有企业反馈其“解锁了一整套全新应用场景” [14] 企业客户反馈与性能验证 - 代码初创公司 Augment 的联合创始人表示,该模型达到了接近前沿水平的代码生成质量,兼具极快速度与成本效益,在内部测试中实现了 Sonnet 4.5 90% 的性能 [15] - 另一家代码初创公司 Windsurf 首席执行官称,Haiku 4.5 模糊了速度、成本与质量之间传统权衡的界限 [15] - 演示软件公司 Gamma 的联合创始人表示,Haiku 4.5 在幻灯片文本生成的指令遵循能力上准确率达 65%,优于其付费层级模型的 44%,这对单位经济效益是颠覆性改变 [16] Anthropic 业务增长与行业趋势 - Anthropic 业务呈爆发式增长,月度年化收入即将突破 70 亿美元,而 8 月公布的数据为 50 多亿美元,公司设定的 2026 年年化收入目标为 200 亿至 260 亿美元,较当前水平增幅将超过 200% [18] - 公司服务的企业客户已超 30 万家,企业级产品收入约占总营收的 80%,其代码生成工具 Claude Code 年化收入已接近 10 亿美元 [18] - 行业正从“AI 错失恐惧期”转向要求可量化的投资回报,企业考量聚焦于具体的生产力提升 [19] - 五个月内,AI 性能保持稳定但价格降了原先的三分之二,若趋势持续,如今先进的 AI 能力一年内可能变得常规且廉价,AI 的基本经济逻辑正以惊人速度转变 [19] - Anthropic 估值达 1830 亿美元,正紧追估值达 5000 亿美元的 OpenAI 等竞争对手 [20] - Anthropic 押注 AI 的未来不属于能打造单一最强模型的企业,而属于能以合适价格、速度提供合适智能并让所有人都能获取的企业 [21]
对AI的质疑,是“自欺欺人”?
虎嗅· 2025-09-30 12:08
核心观点 - AI专家Julian Schrittwieser反驳AI泡沫论,认为当前对AI的质疑是未能理解其指数级增长趋势的自欺欺人行为 [1][2][6] AI能力增长趋势 - AI模型自主完成软件工程任务的时长呈现清晰的指数级增长趋势,每7个月翻一番 [9] - 7个月前的模型Sonnet 3.7能以50%的成功率完成长达一小时的任务 [10] - 最新模型(包括Grok 4, Opus 4.1, GPT-5)已能执行超过2小时的任务,并且表现略高于增长趋势线 [14] 跨行业应用表现 - OpenAI的GDPval评估涵盖9个行业的44个职业,任务由平均拥有14年经验的行业专家提供 [12] - 最新GPT-5模型的表现已惊人地接近人类水平 [13] - Claude Opus 4.1模型在评估中表现更佳,其性能几乎与行业专家的表现相匹配 [16] 未来预测 - 到2026年中,模型将能够自主工作一整个工作日(8小时) [18] - 到2026年底,至少有一个模型将在许多行业中达到人类专家的表现水平 [18] - 到2027年底,模型在许多任务上将频繁超越专家 [18] - 基于指数级增长数据的趋势外推,未来的模型可能会比专家更好 [15][19]
AI专家:对AI的质疑是对“指数级增长趋势”的“自欺欺人”
华尔街见闻· 2025-09-30 10:13
AI技术发展现状与趋势 - 当前对AI"泡沫"或"平台期"的普遍质疑被专家反驳,认为是对技术指数级增长趋势的严重误读,这种心态与新冠疫情初期对指数级传播的忽视类似[1] - AI在执行编程或网站设计等任务时仍会犯错,但因此断言其无法达到人类水平或影响甚微是一种奇怪的现象,正如几年前人们还认为AI编程是科幻小说[1] - 专家将当前对AI的怀疑论调比作"自欺欺人",认为人们因关注当下的不完美而低估了即将到来的变革规模[2] AI软件工程能力进展 - AI模型自主完成复杂软件工程任务的时长正以指数级速度翻倍,显示出清晰的指数级趋势[2][5] - 7个月前的模型Sonnet 3.7已能以50%的成功率完成长达一小时的任务[5] - 包括Grok 4、Opus 4.1和GPT-5在内的新模型不仅延续了趋势,且略高于趋势线,现在能执行超过2小时的任务[7] AI在广泛职业领域的能力评估 - OpenAI的GDPval评估涵盖了9个行业44个职业,任务由平均拥有14年经验的行业专家提供,旨在衡量模型在更广泛经济活动中的表现[9] - 最新的GPT-5在评估中已惊人地接近人类表现[10] - Claude Opus 4.1在评估中表现更佳,其性能几乎与行业专家的表现相匹配[13] AI未来能力预测 - 基于跨越多年和多个行业的指数级增长数据,若改进突然停止将是极其令人惊讶的[12] - 到2026年中,模型将能够自主工作一整个工作日(8小时)[15] - 到2026年底,至少有一个模型将在许多行业中达到人类专家的表现水平;到2027年底,模型在许多任务上将频繁超越专家[15]
8月6日早餐 | OpenAI等多款AI大模型发布
选股宝· 2025-08-06 08:05
海外市场动态 - 美股主要指数普遍下跌,道指跌0.14%、纳指跌0.65%、标普500跌0.49% [1] - 大型科技股表现分化:谷歌A涨3.12%、亚马逊涨0.99%,Meta跌1.66%、英伟达跌0.97% [1] - 特朗普政策动向:可能借理事空缺挑选美联储主席,计划一周内宣布药品和芯片关税(最高达250%),24小时内将大幅提高印度关税 [2] AI行业进展 - OpenAI发布两款开源免费AI模型GPT-oss-120b和GPT-oss-20b [3] - Anthropic推出Opus 4.1版本,编程、研究和数据分析能力显著增强 [4] - 谷歌DeepMind发布世界模型Genie 3,突破视频模型边界并支持实时交互 [5] - Meta研发非侵入神经接口腕带实现"意念控制",成果发表于Nature [7] 医药与科技 - 辉瑞Q2营收同比增长10%超预期,上调全年盈利指引 [6] - 机构预测iPhone17系列可能出现显著涨价 [8] - 强脑科技寻求IPO前融资,估值超13亿美元 [14] - 晶泰控股与DoveTree签署470亿港元管线合作协议,已收首付款4亿港元 [14] 国内政策与产业 - 央行等七部门联合发文支持新型工业化,重点扶持集成电路、工业母机等制造业 [9] - 国务院推进免费学前教育政策,2025年秋季起免除公办幼儿园学前一年保教费 [10][15] - 财政部下达10.15亿元农业防灾减灾和水利救灾资金 [14] - 证监会拟加强资本市场造假第三方约束力度 [14] 半导体与硬件 - SK海力士HBM4价格较HBM3E高70%,采用12-Hi堆叠技术 [12] - 华金证券指出HBM凸点键合技术限制颗粒垂直间距在40μm以上 [12] - 华为昇腾硬件使能CANN全面开源,Mind系列套件支持自主开发 [12][14] - 全球首次实现半固态电池批量上车(MG4纯电两厢车) [14] 新能源汽车 - 蔚来周销量7927台跃居行业第四,乐道L90上市三天交付1976台 [13] - 乐道L90单周销量达理想L8/L9总和的1.6倍,获花旗"性价比最佳"评价 [13][15] - 嵘泰股份拟2.88亿元收购中山澳多51%股权,切入汽车电子领域 [19] 上市公司动态 - 海光信息H1净利润12.01亿元(同比+40.78%),中科曙光H1净利润7.31亿元(同比+29.89%) [19] - 纽威股份H1净利润6.37亿元(同比+30.47%),产品结构改善 [19] - 中盐化工拟对内蒙古碱业增资80亿元,豪恩汽电拟定增募资11.05亿元 [19] - 厦门港务拟61.78亿元收购集装箱码头集团70%股权 [19] 市场数据 - 历史新高个股:上纬新材(机器人+20%)、新潮新材(PEEK材料+19.99%)、新恒汇(eSIM+16.23%) [18] - 解禁信息:龙图光罩8月6日解禁3.85亿元(占比6.22%),华虹公司8月7日解禁10.52亿元(占比0.94%) [21]
华尔街见闻早餐FM-Radio | 2025年8月6日
华尔街见闻· 2025-08-06 07:12
市场概述 - 美国ISM服务业PMI呈现疲软迹象,价格指数高企,投资者担忧滞胀风险打压降息预期 [2] - 大型科技股领跌美股,罗素小盘股指逆市收涨0.6%,AMD因利润不及预期盘后跌5.7% [2] - 滞胀风险推动美债收益率普涨,2年期收益率上行近5个基点,黄金V型反转较日低上行1.2% [2] - 原油下挫1.6%,俄罗斯考虑与乌克兰达成空中停火协议,焦煤夜盘收涨3.92% [2] - 亚洲时段沪指创年内收盘新高,港股医药股爆发,南向资金净买入额创四个月高位 [2] 金融政策与宏观动态 - 中国央行等七部门要求加强对5G、工业互联网等数字基础设施建设的中长期贷款支持 [12] - 国办宣布从2025年秋季学期起免除公办幼儿园学前一年保教费 [12] - 美国7月ISM服务业PMI仅50.1,就业指数萎缩,价格指数创2022年10月新高 [13] - 特朗普计划本周决定美联储新理事,并将在未来一周内宣布药品和芯片关税 [13] - 美国财政部本周拟创纪录发行1000亿美元四周期国债,短债发行高峰持续至2026年 [14] 科技与AI进展 - OpenAI发布两款免费开放权重模型gpt-oss-120b和gpt-oss-20b,Altman称其为全球最佳开放模型 [17] - OpenAI的通用验证器技术通过对抗性训练解决复杂领域评估难题,或成GPT-5核心优势 [18] - 谷歌DeepMind推出世界模型Genie 3,可生成动态交互式环境并保持720p分辨率 [18] - Anthropic发布Opus 4.1,编程测试准确率提升至74.5%,战略转向渐进式改进 [19] - 软银Q2增持英伟达至30亿美元,首次建仓台积电和甲骨文,押注AI产业链 [19] 半导体与硬件 - AMD Q2营收创新高但利润同比降30%,MI308对华出口前景不明导致股价盘后跌5.7% [16] - 特朗普被曝以关税施压要求台积电联合收购英特尔49%股份 [17] - 英特尔18A工艺良率低于盈利水平,下一代PC芯片Panther Lake进展受阻 [17] - 海光信息Q2营收同比大增41.1%,国产高端芯片需求持续攀升 [25] 能源与大宗商品 - 俄罗斯考虑乌克兰提议的空中停火,WTI原油短线跳水至65美元/桶 [15] - 沙特阿美Q2净利润同比降19%至856.3亿里亚尔,自由现金流未能覆盖股息 [32] - LME铜库存激增14,350吨至141,850吨,创3月以来新高 [28] 行业趋势 - PEEK材料成为人形机器人轻量化关键,市场空间显著提升 [33] - 数据标注行业需求旺盛,第三方厂商因规模效应优势显著 [33] - 啤酒行业2025年或现弱复苏,企业发力流通与即时零售渠道 [33] - 可控核聚变行业到2050年或达1万亿美元市场规模 [33] 公司动态 - 特斯拉欧洲销量连续七个月下滑,德国市场同比暴跌55% [29] - 特斯拉面临投资者诉讼,被控夸大Robotaxi安全性致股价下跌6.1% [30] - Palantir美国商业收入激增92%,总合同价值同比增140% [30] - 辉瑞Q2营收同比增10%至146.5亿美元,上调全年盈利指引 [32]
抢在ChatGPT-5之前,Anthropic发布功能更加强大的AI模型Opus 4.1,编程、研究、数据分析能力都更加强大
华尔街见闻· 2025-08-06 00:33
产品发布 - Anthropic公司发布新一代人工智能模型Opus 4 1 [1] - 新模型Opus 4 1的功能被描述为更加强大 [1] - 该模型的发布时机在ChatGPT-5之前 [1] 产品性能 - Opus 4 1模型在编程能力方面表现更加强大 [1] - 新模型在研究任务上的能力得到提升 [1] - 模型的数据分析功能也更加强大 [1]