Claude Haiku 4.5
搜索文档
拜拜了SWE-Bench!Cursor刚发了个AI Coding评测基准,难哭Claude
量子位· 2026-03-14 11:51
CursorBench基准的发布与设计理念 - 编程智能体时代,顶流AI代码编辑器Cursor发布新的评测基准CursorBench,专门评价不同模型在Cursor中作为“智能体”高效执行复杂任务的能力[1] - CursorBench的出现填补了现有基准的空白,其核心区别在于:SWE-Bench等基准衡量程序能否解决问题,而CursorBench衡量的是程序能否在**真实的token约束下高效地**解决问题[3][6] - 行业评价AI的标准正转向“执行能力”,且强调“高效执行”[5] 现有基准测试的三大核心问题 - **任务类型不真实**:现有基准(如SWE-Bench修复GitHub issue,Terminal-Bench的谜题式任务)与开发者要求智能体完成的日常编程工作(如修改多个文件、分析生产日志)不契合[12][13][14][15] - **评分机制不合理**:许多基准假设一个问题只有一个正确答案,但现实中一个需求有多种实现方式,导致要么误判正确方案,要么为评估而人为消除模糊性,无法反映真实情况[16][17][18][19] - **数据污染问题**:基准公开时间过长后,后续模型可能直接抓取基准数据训练,导致评测结果价值存疑[20][21] CursorBench的“线上+线下混合评”方案 - **线下评测(CursorBench)**:让不同模型完成同一批标准任务,系统从正确性、代码质量、效率、交互行为等维度打分,得出离线benchmark分数,具有可重复测试、成本可控等优点[22][23][24] - **线上评测**:通过A/B Test观察真实用户使用不同模型后的效果,主要追踪开发者是否接受AI生成的代码、是否继续追问、是否撤销修改、任务是否真正完成等产品指标[40][41][42] - 线上线下形成互补与良性循环:线下快速筛选模型能力,线上验证真实效果,发现偏差后再调整基准或模型[43] CursorBench任务设计的三大独特维度 - **任务真**:任务来源真实,来自Cursor平台自身,利用Cursor Blame工具追踪开发者请求与模型最终提交的代码对,构成出题范本;许多任务来自内部代码库和受控来源,降低了模型训练阶段见过的风险,基准会每隔几个月更新以跟踪开发者使用方式的变化[26][27][28][29] - **任务规模大**:由于用户基数大,CursorBench任务规模明显更大,例如在正确性评估中,从初始版本到CursorBench-3,代码行数和平均文件数大致翻了一倍,反映了纳入更具挑战性任务(如处理monorepo多工作区、排查生产日志、执行长时间实验)的方式[30][31] - **任务描述刻意保持“模糊”**:与公开基准中详细的任务描述不同,CursorBench的任务描述模棱两可,以更符合现实中开发者与AI对话的真实场景[34][35] 模型在CursorBench上的表现与基准价值 - **模型表现差异显著**:Claude Haiku 4.5分数从73.3降至29.4,Claude Sonnet 4.5分数从77.2降至37.9,表明在新基准上表现大幅下滑[8];Claude Sonnet 4.5的“性价比”被认为较低,而Cursor自研的Composer模型表现引人注目[47][48] - **区分度更高**:CursorBench在前沿模型之间的区分度明显更高,在任务规模更大、环境更复杂的基准上,模型实力差距被放大,得分呈阶梯式分布,而非像SWE-Bench那样挤在一起[49] - **与真实用户体验一致**:通过线上实验验证,CursorBench的模型排名与线上产品指标(如代码接受率)的变化方向基本一致,表明其排名更能反映真实使用效果[51][52] 行业趋势与未来规划 - CursorBench是编程智能体时代真正以“真实开发场景”为原点设计的基准测试[38] - 行业预计未来一年绝大多数开发工作将转向由在各自计算机上独立运行的**长时运行智能体**来完成,因此公司正规划对CursorBench作出相应调整,瞄准运行时间更长的智能体[54]
Is Microsoft’s $500 Million AI Pivot to Anthropic an Admission of Failure?
Yahoo Finance· 2026-01-15 02:37
微软与Anthropic的合作与战略 - 微软预计每年将花费约5亿美元采购Anthropic的Claude AI模型[5] - 微软采用“最佳模型适用”策略 根据任务将工作路由至表现最佳的AI模型 而非仅依赖OpenAI[2] - 微软与Anthropic及英伟达于2023年11月宣布重大合作伙伴关系 在Azure云平台上扩大Claude的访问权限并锁定Anthropic对Azure算力的大量使用[3] - 自2024年1月7日起 对于大多数商业客户 Claude模型已成为默认开启选项 这意味着许多公司无需额外设置即可自动获得Claude的功能[4] - 微软通过智能路由进一步优化 对于起草邮件或安排会议等快速、高吞吐量任务 使用快速且成本低的Claude Haiku 4.5以节省成本并提升速度[7] - 在Copilot Studio中 用户可以选择Claude处理从聊天功能到深度推理的所有任务 微软365 Copilot中的“研究员”智能体现在也利用Claude进行复杂的多步骤分析[7] - 这种灵活的设置使公司能在数据处理、编码辅助、文档编写和工作流自动化等领域获得更好结果 而无需被单一AI供应商锁定[8] - 在Azure上同时托管Claude和OpenAI模型使其更具吸引力 企业可以根据需求混合搭配模型 这有助于微软吸引更多云客户[8] - 此举表明微软正朝着模型不可知论方向迈进 将用户结果置于首位 并有助于降低因OpenAI成本上升或过度依赖单一合作伙伴所带来的风险[11] - 对微软而言 在Anthropic上投入巨资是一项明智的战略胜利 它为核心任务锁定了尖端性能 同时分散了供应商风险 将Claude加入其生态 使Azure和Copilot成为在竞争市场中混合顶级AI模型的优选平台[12] - 这一策略与Anthropic在企业领域的快速崛起相吻合 支持微软提供最强大、最有效AI工具的目标 最终将推动Azure的更多增长 加速大公司对Copilot的采用 并巩固微软作为顶级AI中心枢纽的角色[13] Anthropic的业务表现与前景 - Anthropic约80%的收入来自企业客户[6] - 到2025年底 Anthropic的年化收入运行率预计将达到约90亿美元 2026年的收入预测更是飙升至200亿至260亿美元[9] - Anthropic正朝着到2025年底实现90亿美元年化收入的目标迈进 2026年收入预计达200亿至260亿美元 这显示出在企业实际场景中对Claude的巨大需求[9] AI模型性能对比 - Claude Sonnet 4.5在复杂的Excel任务中表现出明显优势 报告显示在“智能体模式”下 其构建复杂财务模型或发现跨多个电子表格错误的能力比GPT-4o高出约15%[1] - Claude Opus 4.1支持超长上下文——高达50万个令牌 非常适用于总结海量公司文件、报告或法律文件 这是早期GPT版本难以处理的[1]
人工智能新贵Anthropic拟融资100亿美元,企业估值直逼OpenAI
第一财经· 2026-01-08 07:45
公司融资与估值 - 人工智能企业Anthropic签署新一轮融资协议条款清单 本轮融资规模达100亿美元[1] - 公司估值由此达到3500亿美元[1] - 科图投资与新加坡主权财富基金GIC将牵头此次融资[1] 行业竞争格局 - Anthropic正与谷歌 OpenAI等企业展开激烈竞争 以争夺行业领先地位[1] - 竞争对手OpenAI的估值已攀升至5000亿美元[1] 公司产品动态 - Anthropic已于去年年底推出三款全新大语言模型[1] - 三款新模型分别为Claude Sonnet 4 5 Claude Haiku 4 5 以及 Claude Opus 4 5[1]
人工智能新贵Anthropic拟融资100亿美元,企业估值直逼OpenAI
新浪财经· 2026-01-08 07:23
公司融资与估值 - 人工智能企业Anthropic已签署新一轮融资协议条款清单,本轮融资规模达100亿美元 [1] - 本轮融资完成后,公司估值达到3500亿美元 [1] - 本轮融资由科图投资(Coatue)与新加坡主权财富基金GIC牵头 [1] 行业竞争格局 - Anthropic正与谷歌、OpenAI等企业展开激烈竞争,以争夺行业领先地位 [1] - 其主要竞争对手OpenAI的估值已攀升至5000亿美元 [1] 公司产品与技术 - Anthropic已于去年年底推出三款全新大语言模型 [1] - 三款新模型分别为Claude Sonnet 4.5、Claude Haiku 4.5以及Claude Opus 4.5 [1]
Anthropic signs term sheet for $10 billion funding round at $350 billion valuation
CNBC· 2026-01-08 03:29
融资与估值 - 公司已签署一份价值100亿美元融资轮次的条款清单 估值达到3500亿美元 [1] - 本轮融资由Coatue和新加坡主权财富基金GIC领投 [1] - 此前 亚马逊已向公司投资数十亿美元 微软和英伟达于去年11月宣布计划分别投资高达50亿美元和100亿美元 [2] 公司背景与产品 - 公司由前OpenAI研究高管于2021年创立 首席执行官为Dario Amodei [2] - 公司以开发名为Claude的大型语言模型系列而闻名 [2] - 公司于去年底发布了三个新模型 Claude Sonnet 4.5 Claude Haiku 4.5 和 Claude Opus 4.5 [3] 行业竞争格局 - 公司正努力在竞争中保持领先 主要竞争对手包括谷歌和OpenAI [3] - 竞争对手OpenAI的估值已膨胀至5000亿美元 [3]
Anthropic projects $70B in revenue by 2028: Report
Yahoo Finance· 2025-11-05 00:48
财务业绩与展望 - 公司预计2028年营收达700亿美元,现金流达170亿美元 [1] - 公司预计今年营收达38亿美元,其API收入规模是对手公司的两倍 [3] - 公司预计今年毛利率达到50%,2028年提升至77%,较去年负94%大幅改善 [8] - 公司Claude Code产品年化收入接近10亿美元,较7月的4亿美元大幅增长 [3] 营收增长路径 - 公司预计明年年度经常性收入(ARR)将翻倍甚至近三倍增长,目标在2025年底达到90亿美元ARR [2] - 公司为2026年设定了200亿至260亿美元的年度经常性收入(ARR)目标 [2] 商业策略与合作伙伴关系 - 公司与微软合作,将其模型集成至Microsoft 365应用和Copilot中 [4] - 公司扩展了与Salesforce的合作伙伴关系,并计划向德勤和科森特的数十万员工部署Claude助手 [4] - 公司专注于积极的B2B战略,通过推出更小、更具成本效益的模型(如Claude Sonnet 4.5和Haiku 4.5)来吸引大规模部署AI的企业 [5] 产品发展与创新 - 公司扩展了Claude for Financial Services,并推出Enterprise Search功能,使企业能将其内部工作应用与Claude连接 [5] 融资与估值 - 公司可能依靠增长进行更多融资,上一轮融资于9月筹集130亿美元,估值达1700亿美元 [6] - 若再次融资,公司目标估值可能在3000亿至4000亿美元之间 [6] 行业竞争对比 - 公司的主要竞争对手近期估值为5000亿美元,预计今年营收130亿美元,2027年营收目标1000亿美元 [9] - 与竞争对手预计在2029年前累计消耗1150亿美元现金流并面临巨额亏损不同,公司预计到2028年将实现正现金流 [9] 财务状况备注 - 公司的公开债务包括25亿美元的信贷额度和15亿美元的作者团体版权诉讼法律和解金 [7]
传媒行业周报:谷歌发布Veo3.1,吉比特业绩高增-20251021
国元证券· 2025-10-21 12:41
行业投资评级 - 报告对媒体Ⅱ行业的投资评级为“推荐”,并维持此评级 [7] 核心观点 - 报告看好AI应用、文化出海等主题方向,重点关注游戏、IP、短剧、出版等子板块 [5][37] - 建议关注巨人网络、恺英网络、姚记科技、神州泰岳、吉比特、浙数文化、完美世界、快手、美图公司、心动公司、上海电影、芒果超媒、南方传媒、皖新传媒等标的 [5][37] 行情回顾 - 报告期内(2025年10月11日至10月17日),传媒行业(申万)下跌6.27%,在申万一级行业中排名第30名,同期沪深300指数下跌2.22% [2][13] - 主要细分板块均下跌,其中游戏Ⅱ板块跌幅最大,为8.21%,出版板块跌幅最小,为2.28% [13] - 个股方面,*ST返利、粤传媒、天威视讯、名臣健康和荣信文化表现较优,周涨幅分别为+10.05%、+9.51%、+9.12%、+4.63%和+4.53% [21] AI应用数据 - 最近一周(10月10日至10月16日),主要AI应用iOS端下载量环比变化显著:Deepseek为49.31万次,环比增长48.63%;豆包为209.88万次,环比下降0.16%;夸克为74.95万次,环比增长15.99%;腾讯元宝为123.93万次,环比增长36.69% [3][25] - 腾讯元宝于10月9日上线混元图像3.0,生成的图片效果和画质提升明显 [3][25] - 报告期内多家公司发布AI模型更新,包括微软推出自研图像生成模型MAI-Image-1,蚂蚁发布万亿思考模型Ring-1T,阿里通义千问推出视觉语言模型系列Qwen3-VL,Anthropic发布Claude Haiku 4.5,谷歌发布视频生成模型Veo 3.1等 [3][35][36] 游戏数据 - 截至10月16日,iOS游戏畅销榜前三名分别为《王者荣耀》、《三角洲行动》和《金铲铲之战》 [4][27] - 《超自然行动组》开启与“赞萌露比”联动并发布新武器,本周畅销榜排名在10-25名;吉比特《杖剑传说》排名40名上下,计划十月底开启与“罗小黑战记2”联动 [4][27] - 吉比特发布2025年前三季度业绩预增公告,预计扣非归母净利润为10.3亿元到12.2亿元,同比增加68%到99% [4][36] - 恺英网络宣布与顺网科技、顺玩网络达成合作,共建传奇游戏社区生态 [4][36] - 后续新游方面,10月20日至25日期间预计有11款游戏上线,包括腾讯的《卡厄斯梦境》等 [28][29] - 重点游戏活动方面,腾讯《王者荣耀》将于10月25日开启十周年庆 [31][32] 电影数据 - 报告期内(10月11日至10月17日)全国电影总票房为2.62亿元 [4][32] - 票房冠军为《志愿军:浴血和平》,周票房5588万元,占总票房的21.2% [4][32] - 后续(10月21日至26日)将有10部影片待映,其中《下一个台风》和《世界计划:无法唱歌的初音未来》猫眼想看人数较高,分别为8.2万和3.7万人 [4][33]
Anthropic新模型杀疯了!成本直降 2/3、性能直逼GPT-5,用户实测:比“吹”的还强,速度超 Sonnet 3.5 倍
新浪财经· 2025-10-20 16:23
产品发布与性能 - Anthropic发布Claude Haiku 4 5版本 面向所有用户开放 该模型是其最小型模型的最新版本 性能与Sonnet 4相近 成本仅为Sonnet 4的三分之一 速度超过两倍 [1] - Haiku 4 5是一款混合推理模型 能根据请求灵活调整计算资源 默认使用有限硬件资源 可开启“扩展思考”模式生成更复杂响应 但耗时更长 能处理包含多达20万个token的多模态提示 每次响应最多输出6 4万个token [2] - 在SWE-bench Verified基准测试中 Haiku 4 5得分73% 在Terminal-Bench测试中得分41% 成绩与Sonnet 4、GPT-5及Gemini 2 5 Pro持平 [3] - 在OSWorld基准测试中 Haiku 4 5得分达50 7% 显著超过Sonnet 4的42 2% 在使用Python工具支持时 数学任务得分达96 3% 不使用工具时得分80 7% 在终端编码任务中得分41 0% 优于Sonnet 4的36 4% [5] - 用户实测反馈 Haiku 4 5速度约为Sonnet的3 5倍 用户体验更佳 因其能始终保持在“流畅响应区间”内 [7] 定价策略与成本效益 - Haiku 4 5定价为每百万输入tokens 1美元 每百万输出tokens 5美元 相比之下 Sonnet 4 5定价为其三倍 每百万输入tokens 3美元 每百万输出tokens 15美元 Opus 4 1定价更高 为每百万输入tokens 15美元 每百万输出tokens 75美元 [6] - 在五个月内 AI性能保持稳定 但价格降至原先的三分之二 Haiku 4 5能以Sonnet 4三分之一成本提供相近性能 [13] - 代码初创公司Augment内部测试显示 Haiku 4 5实现Sonnet 4 5 90%的性能 同时与规模更大模型表现相当 演示软件公司Gamma称 Haiku 4 5在指令遵循能力上准确率达65% 优于其付费层级模型的44% [11] 应用场景与商业模式 - Haiku 4 5为免费套餐用户提供接近前沿水平的智能 同时为企业客户带来优势 Sonnet 4 5负责前沿规划 Haiku 4 5为子智能体提供支持 打造多智能体系统 快速处理复杂重构、迁移及大型功能构建任务 [1] - 模型轻量级特性使其易于并行部署多个智能体 或与更复杂模型搭配使用 Sonnet 4 5可将复杂问题拆解 协调多个Haiku 4 5模型并行完成子任务 例如让Haiku监控金融数据流 再将初步洞察移交Sonnet进行深入分析 [8][9] - 企业可选择混合使用大型与小型模型提升成本效益 将任务分配给Haiku这类小型模型比单独使用Sonnet等大型模型性价比更高 [9] - Haiku 4 5最直接应用场景可能出现在软件开发工具领域 因其低延迟特性 [10] 公司财务与行业竞争 - Anthropic月度年化收入即将突破70亿美元 而8月公布数据为50多亿美元 公司设定的2026年年化收入目标为200亿至260亿美元 较当前水平增幅超过200% 接近300% [11] - 公司服务企业客户已超30万家 企业级产品收入约占总营收80% 代码生成工具Claude Code年化收入已接近10亿美元 [12] - Anthropic当前估值达1830亿美元 其竞争对手OpenAI估值已飙升至5000亿美元 自推出GPT-5后 OpenAI已签署多项数十亿美元基础设施协议 [13] - 行业竞争加剧 所有头部厂商产品处于迭代优化中 没有哪项特性真正脱颖而出 企业最终选择取决于哪家能以合适价格、速度提供合适智能 [13]
谷歌更新视频生成模型 Veo 3.1,阿里通义千问推出其最强视觉语言模型系列
国盛证券· 2025-10-19 21:54
行业投资评级 - 对传媒行业评级为“增持”(维持)[5] 核心观点 - 当前临近三季报披露期,传媒行业继续看好游戏等基本面驱动板块,关注底部在新政策驱动下困境反转的影视剧板块,同时弹性方向看好AI应用及IP方向[1] - AI应用聚焦能实现数据兑现公司,同时需注意商业模式在大模型能力迭代下的壁垒,重点关注AI陪伴、AI教育及AI玩具方向[1] - IP变现聚焦有IP优势及全产业链潜力的公司,传统文化IP价值挖掘是重点方向[1] 行情概览 - 本周(2025年10月13日至10月17日)传媒板块下跌6.28%[10] - 在中信一级行业中,涨跌幅排名后三的板块分别是电子(-7.10%)、传媒(-6.28%)、汽车(-6.24%)[10] - 传媒板块本周涨幅前五为:粤传媒(9.5%)、天威视讯(9.1%)、中原传媒(3.1%)、歌华有线(2.3%)、天下秀(1.4%)[11] - 传媒板块本周跌幅前五为:大晟文化(-11.9%)、昆仑万维(-12.5%)、紫天科技(-13.2%)、吉比特(-15.0%)、利欧股份(-16.6%)[11] 板块观点与关注标的 - 游戏板块重点关注ST华通、巨人网络、吉比特、恺英网络、神州泰岳、完美世界、心动公司等[1][16] - 影视板块关注芒果超媒、华策影视、欢瑞世纪等[1][16] - IP板块关注创源股份、上海电影、华立科技、姚记科技等[1][16] - AI板块关注豆神教育、盛天网络、荣信文化、中文在线、易点天下、视觉中国、盛通股份、焦点科技、世纪天鸿、佳发教育等[1][16] - 教育板块关注学大教育、粉笔、天立国际控股等[1][16] - 港股关注阿里巴巴、腾讯控股、泡泡玛特、快手、网龙,以及产业爆发在即的阜博集团[1][16] 重点事件回顾 - 谷歌于2025年10月16日发布视频生成模型Veo 3.1,核心升级聚焦更强叙事与音频控制及更丰富输入与编辑能力,支持1080p/24fps分辨率,原生视频时长4-8秒,通过Extend功能最长可扩展至148秒[2][20] - Veo 3.1已接入Gemini API与Vertex AI,其驱动的AI电影制作工具Flow上线5个月用户已生成超2.75亿个视频[2][20] - 阿里通义千问团队推出其最强视觉语言模型系列Qwen3-VL的4B与8B版本,在几十项权威基准测评中超越Gemini 2.5 Flash Lite、GPT-5 Nano等同级别顶尖模型[3] - Anthropic于2025年10月16日发布小模型Claude Haiku 4.5,其在编程核心测试SWE-bench Verified中得73.3%,接近Sonnet 4(72.7%)与GPT-5(72.8%),计算机操作任务(OSWorld测试50.7%)甚至超越Sonnet 4(42.2%)[3][20] - World Labs于2025年10月17日发布实时生成式世界模型RTFM,仅需单块H100 GPU就能实时渲染3D一致的虚拟世界[20] 子板块数据跟踪 - 游戏:根据AppStore现可预购游戏,近期热门的重点游戏包括《功夫熊猫:神龙大侠》、《汤姆猫总动员2》等[21] - 院线:2025年10月13日至10月17日电影市场总票房为1.18亿元(不含服务费),票房前列电影为《志愿军:浴血和平》(2617.7万元)、《浪浪人生》(2101万元)、《刺杀小说家2》(1422.1万元)[22][23] - 影视视频:2025年10月13日至10月17日全平台剧集播映表现前三为《许我耀眼》(全网热度83.8)、《一笑随歌》(全网热度80.9)、《沉默的荣耀》(全网热度80.4)[23][24] - 综艺播映表现前三为《再见爱人第五季》(全网热度77.6)、《喜人奇妙夜第二季》(全网热度77.4)、《花儿与少年同心季》(全网热度76.6)[23][25]
AI商业化落地提速,产业协同进入新阶段
东吴证券· 2025-10-19 20:03
核心观点 - AI商业化落地提速,产业协同进入由“算法创新-算力升级-应用爆发”驱动的新阶段 [2][6] - 资本市场受地缘、中美摩擦、降息等因素扰动出现波动,A股泛AI概念因前期涨幅较多短期有所调整 [2] - 建议关注新出海叠加AI赋能的方向,从偏硬件上游往软件应用切换,包括创新药、游戏/短视频出海、消费电子、军工出海等 [6] 周度观点与产业动态 - 全球AI产业延续高景气,技术创新与商业化应用双线加速 [2] - 沃尔玛与OpenAI合作,将商品目录嵌入ChatGPT实现全流程AI购物,推动其股价单日上涨近5%创历史新高 [2][5] - OpenAI生态战略从技术平台迈向产业融合,与亚马逊AWS、博通、可口可乐、摩根士丹利等多领域巨头合作 [2] - Anthropic发布轻量级模型Claude Haiku 4.5,成本仅为中端模型Sonnet 4的三分之一,定价为每百万输入tokens 1美元、输出tokens 5美元 [3][5] - 百度全面升级文心助手,支持八大模态AIGC创作并推出实时互动数字人智能体,视频生成模型“蒸汽机”实现长视频实时生成 [3][5] 重要数据跟踪 - 美国主要科技股周度表现分化,谷歌(ALPHABET)-A周涨幅达7.07%,年涨幅34.25%;英伟达市值达44,522亿美元,年涨幅36.47% [8] - 亚马逊周跌幅为-1.54%,年跌幅-2.89%;苹果周涨幅2.86%,年涨幅1.10% [8] 人工智能报告推荐 - 东吴证券本周推荐报告覆盖AI算力、端侧AI化转型、结构件盈利拐点及低空经济等方向 [7][14] - 推荐标的包括光互连领域的中际旭创、新易盛;交换机领域的锐捷网络、盛科通信;铜互连领域的兆龙互连等 [14] - 炬芯科技端侧AI化转型显成效,创新音频芯片量产驱动业绩高增长;震裕科技结构件盈利拐点已现,机器人产品不断拓展 [14]