Anthropic变身性价比屠夫,新模型匹敌Sonnet 4,成本仅1/3
36氪·2025-10-16 14:39

产品发布与核心特性 - Anthropic推出新一代推理模型Claude Haiku 4.5,其定位为更小、更便宜、速度更快 [1] - 该模型在编程性能上达到Claude Sonnet 4水平,但成本仅为后者的1/3,速度是原来的2倍多,并在计算机使用等任务上实现超越 [1] - Claude Haiku 4.5被定位为混合推理模型,默认快速响应,用户可选择切换到“扩展思维模式”进行更深思熟虑的回答,此功能为其上一代模型所不具备 [8] 性能基准测试 - 在衡量AI软件编程能力的SWE-bench Verified测试集上,Claude Haiku 4.5表现与Claude Sonnet 4和OpenAI GPT-5类似 [1] - 具体测试结果显示,Claude Haiku 4.5在SWE-bench Verified得分为73.3%,接近Claude Sonnet 4.5的77.2%和GPT-5的74.5% [7] - 在代理终端编码、工具使用、计算机使用、数学推理、多语言问答及视觉推理等多个基准测试中,Claude Haiku 4.5性能全面超越Claude Sonnet 4,部分任务表现优于GPT-5 [7] 定价策略与成本优势 - Claude Haiku 4.5通过Claude API向开发者提供,定价为每百万输入token 1美元(约7元人民币),每百万输出token 5美元(约35元人民币) [3] - 根据定价表,Claude Haiku 4.5的Base Input Tokens成本为$1 / MTok,Output Tokens成本为$5 / MTok,显著低于同系列其他模型 [4] - 公司高管透露,Haiku模型成本约为Sonnet模型的1/3,而Sonnet模型成本是Opus模型成本的1/5,凸显其成本效益 [5] 技术实现与模型能力 - 模型训练数据包括截至2025年2月的互联网公开数据、第三方非公开数据、标注数据、用户授权数据及公司内部生成数据,并经过严格的数据清理和过滤 [7] - 模型具备明确的上下文感知能力,能根据上下文窗口使用量动态调整回答策略,有效限制模型“懒惰”现象 [8] - 支持多模型协同工作,例如可由Claude Sonnet 4.5制定复杂问题解决计划,由Claude Haiku 4.5高效执行其中的子任务 [9] 安全性与评估结果 - 在单轮场景有害信息提供评估中,Claude Haiku 4.5的整体无害响应率为99.38%(± 0.21%),安全性能与Claude Sonnet 4.5、Claude Opus 4.1等模型相当 [10][11] - 对于良性请求,Claude Haiku 4.5的总体拒绝率仅为0.02%(± 0.04%),显著低于Claude Haiku 3.5的4.26%(± 0.75%),表明其拒绝无害请求的频率大幅降低 [12][13] - 在Agent Red Teaming基准测试中表现良好,在评估的25个模型变体中取得多个最好成绩,显示出强大的抗提示词注入及防恶意使用能力 [14] 公司战略与行业地位 - Anthropic目前估值为1830亿美元,为超过30万名企业客户提供服务,本月年收入运行率接近70亿美元 [18] - 公司近期产品迭代节奏加快,在发布Claude Sonnet 4.5和Claude Opus 4.1后,迅速推出Claude Haiku 4.5,体现了无缝衔接的研发节奏 [5][18] - 公司正努力在年底或明年初发布另一新型号,可能是Opus的更新版本,以追赶谷歌和OpenAI等竞争对手 [5][18]