Workflow
Gemini 3 Pro
icon
搜索文档
榜单更新,字节Seed2.0表现亮眼,我们还测了爆火的龙虾 |xbench 月报
红杉汇· 2026-03-04 10:49
xBench评测体系更新与行业采用 - 春节期间,xBench对多家公司发布的最新模型进行了评测,并更新了Leaderboard榜单 [1] - xBench最新发布的多模态理解评测集BabyVision,已被近期发布的多款模型产品纳入评测体系,包括Seed-2.0、Qwen3.5、Kimi K2.5等,在其公开发布的技术报告中均有引用,体现了社区对该评测集的广泛关注与采用 [1][14] - xBench采用长青评估机制,持续汇报最新模型的能力表现,更多榜单将陆续更新 [1] ScienceQA榜单模型表现 - 在ScienceQA榜单上,头部模型竞争激烈,分差相对紧凑 [5] - **字节跳动Doubao-Seed-2.0-pro (high)**:以69.2的平均分位列国产模型第一,仅次于Google的Gemini 3 Pro(71.6分),其BoN(Best of N,N=5)分数为85.0分 [3][5] - 该模型输出token成本为每百万token 2.28美元,仅为Gemini 3 Pro(12美元)的约四分之一,性价比突出 [3][5] - 其BoN分数(85.0)与平均分(69.2)的差距在2.0阶段明显缩小,表明模型单次推理稳定性提升,高分不再主要依赖多次采样 [5] - **阿里巴巴Qwen3.5-plus**:以65.6分位列第三,较其上一代模型Qwen3-235B-A22B-Thinking-2507的55.0分提升了10.6分,BoN分数保持在77.0,显示出平均表现上的明显跃升 [3][7] - **智谱AI GLM-5**:以65.0分位列第六,较上一版本GLM-4.7的60.8分提升了4.2分,在提升表现的同时,平均响应时间没有明显变化,保持了较高的推理效率 [3][8][9] DeepSearch榜单模型表现 - 在DeepSearch榜单中,**Google Gemini Pro**以53分位列第二,同时每道题平均耗时约1.8分钟,在头部产品中响应效率突出,但token成本也极高,完成100题的成本约为249.99美元 [11] - **OpenAI ChatGPT-5-Pro**以79分位列第一,完成100题的成本约为8.5美元,平均每道题耗时约6.1分钟 [11] BabyVision榜单模型表现 - 在BabyVision多模态理解榜单中,**字节跳动Doubao-Seed-2.0-pro**以62.60%的得分位列第一,大幅领先第二名Google Gemini 3.1 Pro(51.50%)11.10个百分点 [13] - **Google Gemini 3.1 Pro**以51.50%位列第二,较Gemini 3 Pro(49.70%)有小幅提升 [13] - **阿里巴巴Qwen3.5-397B-A17B**以43.3%位列第三,较其上一代模型Qwen3-VL-235B-Thinking(22.20%)显著提升了21.1个百分点 [13] - 该模型采用原生多模态路线,通过早期文本-视觉融合以及扩展的视觉/视频数据训练,实现了更强的多模态理解能力 [13] 重点模型能力与产品迭代方向 - 近期模型迭代呈现出三个清晰方向:全训练阶段的多模态增强、竞争从单点基准测试扩展到更真实长程的Agent任务、构建高效稳定的异步Agent强化学习基础设施 [28] - **字节跳动Seed2.0**:在VLMsAreBiased、VLMsAreBlind、BabyVision等多个多模态基准测试中取得了业界最高分,表明其面对不同类型视觉输入时,能保持准确且可信的感知和判断能力 [15][16] - 其视觉感知能力进一步升级,对复杂文档、表格、图形、视频内容的解析水平显著提升 [29][30] - **阿里巴巴Qwen3.5**:引入混合注意力机制和极致稀疏的MoE架构,以Qwen3.5-Plus为例,总参数量高达3970亿,但推理时仅激活最相关的170亿参数,相比此前的万亿参数Qwen3-Max,部署显存占用降低60%,最大推理吞吐量提升至19倍 [33] - **智谱AI GLM-5**:支持200K长上下文,其突破在于引领AI从Vibe Coding演进到Agentic Engineering,具备极强的全自动代码生成和复杂系统重构能力,能够在极少人工干预下自主完成跨越多个阶段的复杂任务 [34] OpenClaw生态与云端产品化趋势 - OpenClaw在年初迅速出圈,其核心是一套完整的结构化交互范式,用户通过一组可维护的文本文件持续塑造Agent的人格、偏好、工具配置与长期记忆 [21] - 围绕OpenClaw的扩展生态(如ClawHub技能库,包含5000+ skills)进一步放大了其吸引力 [20][21] - **月之暗面Kimi Claw**与**MiniMax MaxClaw**的主要贡献是将OpenClaw从本地极客玩具推向云端产品化,降低了普通用户的技术门槛 [21] - Kimi Claw基于Kimi K2.5模型,定价199元/月,MaxClaw基于MiniMax M2.5模型,定价39元/月 [20] - 当前阶段,云端Claw产品的实际体验差异更多来自产品策略和底层模型能力,而非Claw架构本身 [23] - 评测发现,当前OpenClaw生态在安全架构、权限确认机制、回滚和错误隔离等方面仍存在缺口,更像是一个被舆论放大的新交互范式演示,而非成熟的生产力基础设施 [24] - 安全测试案例显示,不同Claw产品在应对Prompt注入攻击时表现不一,底座模型的安全对齐和平台的结构化防护策略需同时建立以确保安全 [25][26][27]
AI集群互连散热专题报告:散热需求向互连系统延伸,连接器散热成为重要补充
东莞证券· 2026-02-27 16:04
行业投资评级 - 超配(维持)[1] 报告核心观点 - AI算力需求呈指数级爆发,推动集群功耗上扬,散热需求从芯片向互连系统延伸,连接器散热成为散热方案中的关键环节,正从被动散热走向主动管理,建议关注AI集群互连中的连接器散热市场投资机遇[4][62][63] 1、算力升维,散热边界外延 1.1 功耗激增:AI集群散热需求增长 - **大模型加速迭代**:2025年下半年以来,全球大模型厂商密集更新,平均迭代周期维持在3~4个月,例如OpenAI在8月推出GPT-5,11月发布GPT-5.1[11] - **AI迈向L3智能体时代**:预计2025-2030年全球AI智能体市场规模将从78.4亿美元增至526.2亿美元,复合年增长率高达46.3%,其中亚太地区增速最快,预计达48.5%[14][16] - **企业级Agent应用前景广阔**:根据Gartner测算,到2028年,约33%的企业软件将内置AI智能体功能,约15%的日常业务决策可由AI自动完成[16] - **全球算力规模高速增长**:2023年全球计算设备算力总规模达1397 EFlops,同比增长54%,其中智能算力规模为875 EFLOPS,占比62.6%,预计未来五年全球算力规模仍将以超过50%的速度增长,至2030年将超过16 ZFlops,智能算力占比将超过90%[17] - **AI芯片功耗持续突破**:以英伟达产品为例,芯片功率从H100的700W TDP,到B200的1000W,再到GB200的1200W,预计2026年下半年登场的Vera Rubin平台GPU TDP将飙升至2300W,VR200 NVL44 CPX将高达3700W[4][19][20] - **数据中心单机柜功率密度增长**:国内8kW及以上功率密度的机柜占比从2021年的11%提升至2022年的25%,主流IT机柜功率密度预计将从目前的6-8kW/柜提升至12-15kW/柜,超算和智算中心预计将超过30kW,根据赛迪顾问预测,到2025年全球数据中心单机柜平均功率将达到25kW,单机柜20kW以上通常需要采用液冷散热[20][21] 1.2 数据中心PUE相关要求趋严 - **PUE定义与现状**:PUE是数据中心总能耗与IT设备能耗的比值,2021年全国数据中心平均PUE为1.49,华北、华东地区接近1.40,华中、华南地区接近1.60[22][23] - **国家政策目标**:要求到2025年,全国新建大型、超大型数据中心平均电能利用效率降到1.3以下,国家枢纽节点及寒冷地区进一步降到1.25以下,绿色低碳等级达到4A级以上,2023年3月政策明确鼓励数据中心部署液冷系统[23][27] - **地方政策更严**:例如宁夏要求新建大型、超大型数据中心PUE值不高于1.2,上海要求到2025年新建智算中心PUE值达到1.25以下,存量改造智算中心PUE值达到1.4以下,且液冷机柜数量占比超过50%[24][27] 2、连接器散热成为散热方案中的关键环节 2.1 散热边界拓展:从芯片到互连 - **互连系统成为新热源**:随着AI算力中心架构演进,高速连接器、光模块、互连线缆等互连系统的发热量占比正从边缘迅速扩展至核心地位[4][29] - **光模块功耗激增**:传输速率从100G提升到800G时,单个光模块功耗从2.5W提升到30W,在叶脊架构下,光模块需求成倍增长,全部加载情况下光模块消耗可达整机消耗的40%以上[31] - **SerDes功耗占比跃升**:因单通道速率提升,SerDes在交换芯片中的功耗占比从2014年的15%跃升至2022年的40%[34] - **高密度集成带来散热挑战**:光模块等互连模块被直接焊接或卡载在主板上,热量直接传导至CPU/GPU散热器底座,形成“算力与互连总成”的热源,高密度堆叠导致热阻增加,铜缆的趋肤效应进一步加剧发热,可能形成高温热斑引发系统风险[38] 2.2 互连散热:连接器正从被动散热走向主动管理 - **连接器热源主要来自三方面**:焦耳热(大电流、高速信号)、接触电阻热(接触界面特性)、临近热源传导(芯片/DSP功耗激增)[39][44] - **散热技术路线分为两大类**: - **被动散热**:通过结构优化与材料升级降低产热、优化导热路径,例如采用铜合金、银镀层等高导电率材料,或PT-610、PEI、PPS、PEEK等耐高温绝缘材料[44] - **主动散热**:引入外部冷却介质,包括接触式冷板(如泰科的散热桥技术,热传导能力较传统散热垫提高2倍;莫仕的浮动静置式冷板方案)和集成式液冷(冷却液直接流经连接器/端子内部)[45][47] - **连接器散热三大核心应用场景**: - **高速I/O连接器**:配套光模块的笼子连接器散热,解决1.6T光模块功耗突破20W及内部DSP散热需求,散热方案从模块自带散热片转向连接器侧主动液冷[48] - **电源连接器**:解决GPU供电、机柜电源输入输出等场景下载流能力需达200A-500A、焦耳热呈平方级增长、接触电阻热可能引发热失控等难题[48] - **高速背板连接器**:解决112G/224G高速信号传输产生的焦耳热、多通道密集排布的热耦合、背板气流受限等挑战,行业方案包括泰科的液冷母线解决方案(单个机架内提供高达750千瓦功率)和中航光电的GF3D系列高速背板连接器(传输速率25Gbps,可扩展至112G/224G)[49][50] 3、重点公司 - **英维克(002837)**:国内温控系统龙头企业,覆盖数据中心、储能等多场景温控需求,在液冷技术领域具备全链条平台优势,其Coolinside全链条液冷解决方案(包括CPU液冷冷板、UQD快速接头等)通过英特尔验证,UQD产品被列入英伟达MGX生态系统合作伙伴,2025年前三季度实现营业收入40.26亿元,同比增长40.19%,归母净利润3.99亿元,同比增长13.13%[53][54][55][64] - **瑞可达(688800)**:国内知名连接器生产制造商,产品应用于数据通信、AI与数据中心等领域,为AI系统提供包括传输高速数据400G/800G/1.6T的I/O有源及无源铜缆、电源传输、PCIE协议及冷却连接等完整解决方案,2025年前三季度实现营收23.21亿元,同比增长46.04%,归母净利润2.33亿元,同比增长119.89%,预计2025年年度归母净利润同比增加64.20%到81.43%[56][57][58][64] - **中航光电(002179)**:为航空防务和高端制造提供互连解决方案的高科技企业,产品广泛应用于通信网络、数据中心等领域,自主研发各类连接产品500多个系列,截至2025年底累计获得授权专利6300余项,其GF3D系列高速背板连接器适用于高速率场景,2025年前三季度实现营业收入158.38亿元,同比增长12.36%,据业绩快报披露,2025年全年实现营业收入213.01亿元[49][59][60][61][64] 4、投资策略 - 全球算力需求高速增长,推动AI算力密度持续攀升,散热从芯片到互连实现边界拓展,连接器散热成为关键环节并从被动走向主动管理,建议关注AI集群互连中的连接器散热市场投资机遇,重点关注英维克、瑞可达、中航光电等公司[62][63][64]
左手算力、右手电力!谷歌的焦虑藏不住了
格隆汇· 2026-02-25 15:28
公司战略与投资动态 - 谷歌于2月24日宣布,将在美国明尼苏达州建设其在该州的首座数据中心,并与能源公司Xcel Energy合作[1] - 同日,谷歌宣布将在美国得克萨斯州建设一座新的数据中心和清洁能源设施[2] - 一天之内宣布两座数据中心,表明公司的算力需求空前迫切[3] - 在得克萨斯州的数据中心建设,建立在公司此前宣布的400亿美元投资得州的基础之上[11] 能源与基础设施规划 - 在明尼苏达州,谷歌计划新增总计1900兆瓦的清洁能源供给,具体包括1400兆瓦风电、200兆瓦太阳能和300兆瓦长时电池储能[5] - 这些能源项目将由Xcel Energy持有和运营,预计在2028至2029年间陆续并网[6] - 公司承诺全额承担与电力服务相关的费用,通过溢价采购绿电和“清洁能源加速费”机制,避免将成本转嫁给当地居民[8] - 即便项目未能落地,谷歌也将支付所有相关新建输电线路的费用[8] - 得克萨斯州的新数据中心将采用先进空冷技术以降低水资源消耗,仅保留园区必要场景用水[10] 项目进展与地方支持 - 明尼苏达州派恩艾兰镇的数据中心已获得当地市议会支持,市议会在去年12月批准了初步开发计划[7] - 当地近期批准了包括3600万美元税收减免在内的财政激励政策[7] - 当地行政官预计,该项目可为派恩艾兰镇带来超过1.3亿美元的税收收入[8] 算力扩张与行业竞争 - 为满足急速增长的算力需求,谷歌持续扩大能源合作,与AES、NextEra等电力企业签订长期供电协议[11] - 仅与NextEra合作的在运与签约发电设施总容量已达3.5吉瓦[12] - 富国银行研报显示,谷歌整体算力规模预计将从2025年底的15吉瓦增至2028年的35吉瓦,其云算力也将实现翻倍以上增长[12] - 算力壁垒正成为公司的核心竞争优势[12] - 谷歌的激进扩张是全球科技巨头算力竞赛的缩影,微软、Meta、亚马逊AWS也纷纷与美国电力企业签订大额供电协议,大规模新建AI智算中心[16] 技术发展与产品更新 - 谷歌于2月19日发布Gemini 3.1 Pro,其推理性能相比三个月前发布的Gemini 3 Pro翻倍,在逻辑破解评测中得分达77.1%[15] - 公司预计将在5月19至20日的I/O开发者大会上发布Gemini大模型及其他AI产品更新[16] - 凭借客户数据、分发渠道、算力三大维度的绝对优势,公司已被分析师视为AI时代的“赢家型企业”[16] 行业面临的挑战 - 数据中心项目面临本地居民与环保组织的反对,相关环境诉讼与监管审核尚未完成,落地节奏存在不确定性[8] - 地面数据中心普遍面临用电用水紧张、社区抵制、电网改造滞后等难题,高耗能与高耗水特性引发多地居民反对[17] - 环保与成本争议成为数据中心项目落地的主要障碍[17] - 有观点指出,AI数据中心建设的巨额支出正在吞噬科技公司的现金流,并质疑其会计操作掩盖了真实成本[16] - 为应对挑战,有行业领袖提出设想,例如从月球发射卫星构建在轨数据中心网络以支持高性能计算需求[17]
假期发生十件大事,机会都在这里
搜狐财经· 2026-02-21 16:54
全球贸易与关税政策 - 美国最高法院裁决特朗普政府大部分关税违法并被迫中止 全球关税水平普遍下降 提振全球经济和市场信心[1] - 特朗普宣布将加征10%全球进口关税 但新关税最多只能持续150天[1] 地缘政治与大宗商品市场 - 美国考虑对伊朗进行初步有限军事打击 导致石油和黄金价格大涨 军工行业受益[1] - 美油主力合约周涨5.57% 布油主力合约周涨5.58%[1] - 国际贵金属期货大幅反弹 COMEX黄金和白银期货本周累计分别上涨1.66%和8.47% 主因避险情绪、美联储降息预期升温及各国央行加仓[1] - 伦敦基本金属全线上涨[3] 宏观经济与货币政策 - 美国2025年第四季度实际GDP年化初值环比增长1.4% 较第三季度终值4.4%显著放缓 主因政府支出和出口下降及消费者支出增速放缓[1] - 美国经济和通胀低于预期 美联储降息预期升温[1] - 全球降息预期提振欧美和亚洲资本市场 日本、韩国市场创新高[2] 人工智能(AI)产业发展 - 人工智能大爆发 新技术新物种突飞猛进 谷歌推出最新大模型Gemini 3.1 Pro 其推理性能较Gemini 3 Pro直接翻倍[3] - 国际货币基金组织总裁表示人工智能有可能使全球经济增长提高近1%[3] - 近期欧元区、印度、日本的PMI指数回升[3] - 假期前三天重点平台智能穿戴设备销售额增长19.7% 其中智能眼镜增长2.5倍 智能血糖仪增长48.6%[3] - AI机器人市场有望在未来十年达到10万亿美元 成为最具增长潜力的行业[4] - 2026年趋势包括AI超级应用大爆发及AI中国力量崛起[4] 自动驾驶与电动汽车 - 特斯拉Cybercab赛博无人驾驶电动车第一台量产车型在美国得州超级工厂下线 该车型专为自动驾驶打造 无方向盘和脚踏板[4] - 特斯拉推出5.999万美元入门级Cybertruck车型[4] - 春晚机器人大放异彩 商业化加快[4]
编码新王登基!Gemini 3.1 Pro 血洗 Claude 与 GPT,12 项基准测试第一!
AI前线· 2026-02-20 10:43
产品发布与核心升级 - 谷歌正式推出Gemini 3.1 Pro,这是一次核心推理能力的系统性升级,旨在将最新一代推理能力快速融入实际工作流与个人使用场景,而不仅仅停留在实验室阶段 [2][4] - 该模型采用混合专家架构,用户可输入包含高达100万token数据量的提示词,响应输出最多包含6.4万token,标志着Gemini 3系列的最新能力开始全面进入开发者工具、企业服务及普通用户的日常应用 [2] - 谷歌的发布策略是先通过Deep Think展示上限,再通过3.1 Pro将这些能力沉淀为更稳定、更通用的底座模型,并迅速推向API、企业平台和消费级应用 [18] 性能表现与基准测试 - 在衡量抽象推理与新问题适应能力的ARC-AGI-2基准测试中,Gemini 3.1 Pro获得了77.1%的成绩,是其上一代产品Gemini 3 Pro(31.1%)的两倍以上,也显著领先于Claude Opus 4.6(68.8%)、Claude Sonnet 4.6(58.3%)和GPT-5.2(52.9%)[9][12][16] - 在官方公布的16项基准测试数据中,Gemini 3.1 Pro在其中12项基测中均位列第一 [17] - 在MCP Atlas测试(评估AI模型使用第三方服务执行任务能力)中,Gemini 3.1 Pro以69.2%的成绩领先于Claude Sonnet 4.6(61.3%)[17] - 在编程测试Terminal-Bench 2.0中,Gemini 3.1 Pro编码能力(68.5%)高于Opus 4.6(65.4%)和GPT-5.2(54.0%)[17] - 在科学编程任务基准测试SciCode上,Gemini 3.1 Pro的表现(59%)比Claude Opus 4.6(52%)高出7% [17] 技术特点与定位 - Gemini 3.1 Pro被定位为“更聪明、更具能力的基础模型”,尤其适用于复杂问题求解、跨领域分析以及需要抽象逻辑的任务 [9] - 与仅限Google AI Ultra订阅用户使用且每日限用10次的Deep Think模式不同,Gemini 3.1 Pro是一款向所有用户免费开放的基础模型 [15] - 该模型面向那些“给出一个简单答案远远不够”的任务而设计,旨在将高级推理能力转化为可用于解决最棘手问题的实用智能 [20] 应用场景与用例 - **基于代码的动画生成**:模型可以直接根据文本提示生成可直接用于网站的动态SVG动画,文件体积小,降低了加载和分发成本 [21] - **创意编程**:能够将文学主题转化为功能性代码,例如为小说《呼啸山庄》构建一个能捕捉主角神韵的现代个人作品集网站 [22] - **复杂系统综合**:利用先进的推理能力弥合复杂API与用户友好型设计之间的鸿沟,例如构建一个实时航天仪表盘来可视化国际空间站的轨道运行情况 [23] - **交互式设计**:能够编写复杂的3D椋鸟群舞模拟代码,并构建一个用户可通过手部追踪来操控鸟群、同时聆听动态生成式配乐的沉浸式体验 [23] 市场策略与覆盖范围 - Gemini 3.1 Pro已于发布当日开始分批上线,覆盖开发者、企业客户以及普通消费者 [3] - **开发者**可通过Gemini API(Google AI Studio)、Gemini CLI、智能体开发平台Google Antigravity以及Android Studio预览使用 [7] - **企业用户**通过Vertex AI和Gemini Enterprise接入 [7] - **消费者**可在Gemini App及NotebookLM中直接体验 [7] - 根据公司2025年第四季度收益报告,Gemini模型通过客户直接使用API,每分钟处理超过100亿个token,Gemini App的月活跃用户已增长到超过7.5亿 [25] 行业影响与社区反馈 - 技术社区认为此次更新的关键信号在于整体推理能力和复杂问题求解能力的持续提升,竞争焦点正在从“参数规模”转向“真实任务完成率” [27][28] - 人工智能的发展节奏已进入“以月甚至以周计”的阶段,Gemini 3.1 Pro在较短时间内推出被解读为谷歌对市场现实压力的直接回应 [28] - 社区关注点包括在降低使用成本的同时提升智能水平,这对于推动AI在生产环境中的应用尤为关键,决定胜负的将是推理能力、工程可用性以及规模化落地的综合表现 [30]
谷歌突发Gemini 3.1 Pro!首次采用「.1」版本号,推理性能×2的那种
量子位· 2026-02-20 09:28
文章核心观点 - 谷歌发布Gemini 3.1 Pro模型,相较于去年11月发布的3 Pro,虽为小版本号更新,但在核心推理能力、多模态生成、语义理解及长上下文处理等方面实现了显著提升,性能表现强劲,获得用户积极反馈 [1][9][27] - Gemini 3.1 Pro的发布,在提升性能的同时保持了与上一代模型持平的价格,显著优化了成本效益,推动了行业在“帕累托前沿”上的进步,即追求最小化成本与最大化性能 [35][36][39] Gemini 3.1 Pro的核心性能升级 - **推理能力大幅增强**:在ARC-AGI-2基准测试中,Gemini 3.1 Pro获得77.1%的验证分数,推理表现达到Gemini 3 Pro的2倍之多 [9][10] - **多模态与可视化能力进化**:官方展示显示,模型在多模态生成和语义理解上提升了一个level,能生成动作更连贯、色彩输出更佳的内容,并能将日常数据转为互动可视化内容 [1][14][20] - **长上下文与综合能力提升**:模型支持1M上下文,知识截止日期为2025年1月,在多模态理解、代码生成、多语言性能和长上下文方面均同步增强 [11] 基准测试与竞品对比表现 - **多项基准领先**:在Humanity's Last Exam测试中得分为51.4%(使用工具),在GPQA Diamond科学知识测试中达94.3%,在SWE-Bench Verified代理编码测试中达80.6% [11] - **竞品对比优势**:在ARC-AGI-2测试中,分数(77.1%)显著高于Claude Sonnet 4.6(58.3%)、Opus 4.6(68.8%)及GPT-5.2(52.9%) [11] - **整体排名提升**:在Arena对比评测中,Gemini 3.1 Pro的整体排名分数比3 Pro高出13分,文本与代码维度表现进步明显 [12] 实际应用与用户反馈 - **复杂任务处理**:能应对结构更复杂、步骤更多的提示词需求,例如一次性生成3D版“椋鸟群飞”视觉代码并实现可交互玩法,用户可通过手势追踪操控鸟群,画面还能根据运动生成音乐 [16][17][18] - **用户创意实现**:网友使用模型成功生成《我的世界》场景、创建个人网站以及开发具有逼真光线模拟效果的教育应用,反馈积极 [22][24][25] - **模型可用性**:Gemini 3.1 Pro已在Gemini应用和API中上线,Google AI Pro和Ultra用户还可在NotebookLM中使用该模型 [29] 成本与行业影响 - **定价策略**:Gemini 3.1 Pro Preview的输入输出价格与Gemini 3 Pro Preview持平,输入价格为每百万tokens 2美元(<200k)或4美元(>200k),输出价格为4美元(<200k)或18美元(>200k) [36] - **成本效益显著**:从ARC-AGI基准视角看,每完成一次ARC-AGI-2任务花费约0.96美元(约6.63元人民币),而性能相近的Gemini 3 Deep Think价格是其10倍 [37] - **推动行业进步**:此次更新以小幅版本号实现了性能的大幅提升和成本的优化,被认为打破了传统的成本-智能曲线,将大模型向帕累托前沿推进,对于高速进化中的大模型应用而言,成本持续压缩值得关注 [35][39][41]
Anthropic又“踢馆”!Sonnet 4.6操作电脑接近人类,性能堪比旗舰模型、定价仅1/5
华尔街见闻· 2026-02-18 12:33
Anthropic发布Claude Sonnet 4.6模型 - 公司发布新中端模型Claude Sonnet 4.6,在编程、操作电脑、长文本推理、智能体规划、知识工作和设计等方面实现全面升级 [1] - 新模型定价与前代Sonnet 4.5相同,为每百万token输入3美元、输出15美元,但性能已接近定价为其五倍的旗舰Opus模型(Opus定价为输入15美元、输出75美元)[1] - 对于每天进行数百万次API调用的企业部署而言,这一成本性能比的改变具有变革意义 [1] 模型性能关键提升 - **操作电脑能力**:Sonnet 4.6在标准基准测试OSWorld上得分达72.5%,在不到一年半时间内从14.9%提升至接近人类水平 [3][5] - **编程能力**:在早期测试中,开发者在约70%的情况下更偏好Sonnet 4.6而非前代Sonnet 4.5,甚至在59%的情况下更偏好它而非去年11月发布的旗舰模型Opus 4.5 [1][7] - **基准测试表现**:在SWE-bench Verified编码测试中得分为79.6%,接近Opus 4.6的80.8%;在OSWorld-Verified测试中得分为72.5%,与Opus 4.6的72.7%基本持平;在办公任务GDPval-AA Elo测试中得分1633,远超Opus 4.6的1606;在模拟财务分析测试中得分63.3%,击败了包括Opus 4.6(60.1%)在内的所有对比模型 [8] - **长期战略规划**:模型配备100万token上下文窗口(测试版),在Vending-Bench Arena模拟业务测试中,Sonnet 4.6在365天模拟结束时余额约5700美元,远高于Sonnet 4.5的约2100美元 [12][13] 企业应用与市场影响 - 模型操作电脑的能力对企业应用至关重要,能自动化缺乏API的遗留软件系统,在复杂的保险计算机使用基准测试中准确率达94% [5] - 多家企业客户反馈积极:Hex Technologies正将大部分流量转移到Sonnet 4.6;Box表示该模型在真实企业文档的重度推理问答中比Sonnet 4.5高出15个百分点;Replit称性能成本比“非凡”;Mercury的产品副总裁称其更快、更便宜且更可能一次成功 [10][12] - 公司加速进军企业市场,近期以3800亿美元估值完成300亿美元新融资,估值较去年9月翻倍,并与印度IT巨头Infosys合作,将Claude模型整合至其Topaz AI平台 [2][18] 行业竞争格局 - 此次发布是公司在不到两周内的第二次重大模型发布,紧随旗舰模型Claude Opus 4.6之后,体现了行业快节奏开发 [16] - 在多个基准测试中,Sonnet 4.6超越了竞争对手Google的Gemini 3 Pro和OpenAI的GPT-5.2,例如在智能体计算机使用测试中以72.5%对38.2%领先GPT-5.2 [19] - 公司的快速进展加剧了市场对软件行业被AI颠覆的担忧,iShares扩展科技软件行业ETF今年以来已暴跌逾20% [16][17] - OpenAI据报也在进行可能接近1000亿美元的融资谈判 [21]
Anthropic又“踢馆”!Sonnet 4.6操作电脑接近人类,性能堪比旗舰模型、定价仅1/5
美股IPO· 2026-02-18 08:06
Anthropic发布Claude Sonnet 4.6模型 - 核心观点:Anthropic在发布旗舰模型Opus 4.6后不到两周,再次推出中端模型Claude Sonnet 4.6,该模型以中端价格(输入每百万token 3美元,输出每百万token 15美元)提供了接近甚至部分超越旗舰Opus 4.6(输入每百万token 15美元,输出每百万token 75美元)的性能,实现了重大的成本性能比突破,可能重塑AI行业定价格局 [1][3][12] 模型性能与基准测试 - 操作电脑能力:Sonnet 4.6在OSWorld基准测试中得分达72.5%,在16个月内提升了五倍,接近人类水平,在复杂保险计算机使用基准测试中准确率达94% [1][5][7] - 编程能力:在SWE-bench Verified编码测试中,Sonnet 4.6得分79.6%,接近Opus 4.6的80.8% [10] - 办公与财务分析能力:在办公任务GDPval-AA Elo测试中,Sonnet 4.6得分1633,超过Opus 4.6的1606;在模拟财务分析测试中,Sonnet 4.6得分63.3%,超过Opus 4.6的60.1% [10] - 多维度对比:根据提供的基准测试表格,Sonnet 4.6在多项测试中表现优于前代Sonnet 4.5,并在智能体计算机使用(72.5%)、智能体金融分析(63.3%)等关键企业应用领域超越竞争对手GPT-5.2和Gemini 3 Pro [11][20][21] 开发者与客户反馈 - 开发者偏好:早期测试中,开发者在大约70%的情况下更偏好Sonnet 4.6而非Sonnet 4.5,甚至在59%的情况下更偏好其而非前代旗舰Opus 4.5 [1][3][9] - 企业客户评价:多家企业客户,如Hex Technologies、Box、Replit、Mercury等,证实该模型在多数任务上达到Opus级别性能,且成本更低,性能成本比“非凡”,正将流量转移至Sonnet 4.6 [12][14][15] 定价策略与市场影响 - 定价优势:Sonnet 4.6定价仅为旗舰Opus模型的五分之一,为每天进行数百万次API调用的企业部署提供了变革性的成本效益,消除了在成本与性能之间的权衡 [3][12][13] - 企业市场拓展:发布正值公司加速进军企业市场,近期以3800亿美元估值完成300亿美元新融资(估值较去年9月翻倍),并与印度IT巨头Infosys合作,整合Claude模型至其Topaz AI平台 [4] 技术特性与长期能力 - 上下文窗口:配备100万token的上下文窗口(测试版),能有效进行长期推理 [15] - 战略规划能力:在Vending-Bench Arena模拟业务测试中,Sonnet 4.6自主制定并执行长期投资策略,模拟结束时余额约5700美元,远超Sonnet 4.5的约2100美元 [16] - 安全改进:在抵御计算机操作中的提示注入攻击方面,较Sonnet 4.5有重大改进 [8] 行业竞争与背景 - 快速发布节奏:此次发布是公司在12天内的第二次重大模型发布,体现了行业激烈的竞争和快节奏的开发 [18] - 行业影响:AI模型的快速进展加剧了投资者对软件行业可能被颠覆的担忧,iShares扩展科技软件行业ETF今年以来已暴跌逾20% [18] - 竞争格局:Sonnet 4.6在多个基准测试中表现优于Google的Gemini 3 Pro和OpenAI的GPT-5.2,而OpenAI据报也在进行可能近1000亿美元的融资谈判 [20][21][22]
阿里AI春节“封神”:1.3亿人涌入千问,日活追平豆包,B端模型价格仅谷歌1/18
搜狐财经· 2026-02-18 01:24
行业竞争态势 - 中国AI企业在春节期间发起史无前例的春节攻势,阿里巴巴、字节跳动、腾讯、月之暗面等公司参与其中 [2] - AI行业价值重心正从以Chat为代表的“陪聊”转向以Agent为代表的“办事” [2] 阿里巴巴B端业务进展 - 阿里巴巴于除夕开源全新一代大模型千问Qwen 3.5-Plus,性能对标谷歌Gemini 3 Pro [2] - Qwen 3.5-Plus采用稀疏混合专家架构,总参数3970亿,激活参数170亿,实现了“以小胜大” [4] - 该模型最大推理吞吐量提升至19倍,显存占用降低60% [4] - 其API价格低至每百万Token 0.8元,在同等性能水平下,价格仅为谷歌Gemini 3 Pro的1/18 [4] - 公司自2023年以来已开源超400个模型,全球下载量突破10亿次 [4] 阿里巴巴C端业务进展 - 春节期间超过1.3亿人涌入千问App体验AI购物,用户向千问发出了50亿次“千问帮我”的指令 [2][7] - 千问日活在短短三个月内飙升至7300万量级,2月7日DAU达7352万,迅速追平了字节跳动“豆包”积累三年的身位(豆包DAU为7871万) [2][8] - 淘宝、支付宝、飞猪、高德、大麦等核心应用均已接入千问,未来还将上线AI打车、充值等功能 [8] - 春节期间,千问电影票订单环比增长372倍,交通票务增长超7倍 [11] - 来自三四线城市的AI订单量暴涨782倍,所有AI订单中近一半来自县城 [11] - 近400万60岁以上用户体验了AI购物 [11] 阿里巴巴技术战略与优势 - 公司拥有“通云哥”全栈能力,即通义实验室(模型)、阿里云(基建)与平头哥(芯片)的垂直整合 [2][10] - 市场消息显示,阿里已决定支持平头哥未来独立上市 [10] - 通过自研芯片“真武”与千问模型的深度耦合,实现了软硬一体的“AI超级计算机” [10] - 在FP8、FP32精度应用策略下,训练成本大幅降低,训练速度提升10% [10] - 公司正通过“最强开源模型+最全实体生态”的双轮驱动,走出一条不同于硅谷的道路 [10]
阿里AI春节“封神”:1.3亿人涌入千问 日活追平豆包 B端模型价格仅谷歌1/18
国际金融报· 2026-02-17 23:51
行业竞争态势 - 中国AI企业在春节期间发起了一场史无前例的春节攻势,行业竞争激烈 [2] - 阿里巴巴在B端与C端均取得显著进展,凭借垂直整合优势实现双线大捷 [2] - AI行业价值重心正从以Chat为代表的“陪聊”转向以Agent为代表的“办事” [2] B端业务:模型开源与成本优势 - 阿里巴巴于除夕开源全新一代大模型千问Qwen 3.5-Plus,性能对标谷歌Gemini 3 Pro [2][3] - Qwen 3.5-Plus采用稀疏混合专家(MoE)架构,总参数3970亿,激活参数仅170亿,实现了“以小胜大” [3] - 模型推理效率大幅提升,最大推理吞吐量提升至19倍,显存占用降低60% [3] - 其API价格低至每百万Token 0.8元,在同等性能水平下,价格仅为谷歌Gemini 3 Pro的1/18 [3] - 公司通过极致性价比加速企业级AI渗透,并对缺乏底层算力优化的中间层厂商形成“降维打击” [3] - 自2023年以来,公司已开源超400个模型,全球下载量突破10亿次,通过开源构建规模效应和生态护城河 [3] C端业务:用户增长与生态协同 - 春节期间超过1.3亿人涌入千问App体验AI购物,用户向千问发出了50亿次“千问帮我”的指令 [2][6] - 千问日活在短短三个月内飙升至7300万量级(2月7日DAU达7352万),迅速追平字节跳动“豆包”积累三年的身位(7871万)[2][7] - “千问帮我”已成为AI时代的用户新习惯,千问一跃成为国民级AI助手 [6] - 春节期间,千问电影票订单环比增长372倍,交通票务增长超7倍 [7] - 来自三四线城市的AI订单量暴涨782倍,所有AI订单中近一半来自县城 [11] - 近400万60岁以上用户体验了AI购物,证明了“一句话点单”正在抹平数字鸿沟 [11] - 淘宝、支付宝、飞猪、高德、大麦等核心生态应用均已接入千问,未来还将上线AI打车、充值等功能 [7] 技术战略与核心能力 - 公司拥有被称为“通云哥”的硬核科技战略,即通义实验室(模型)、阿里云(基建)与平头哥(芯片)的黄金三角 [8] - 市场消息显示,公司已决定支持平头哥未来独立上市 [8] - 通过自研芯片“真武”与千问模型的深度耦合,公司实现了一台软硬一体的“AI超级计算机” [8] - 这种垂直整合的底层架构统一,最大化压榨了算力效率,在特定精度策略下,训练成本大幅降低,训练速度提升10% [8] - 公司拥有“从意图到执行”的完整履约网络,这是其区别于OpenAI和谷歌等硅谷巨头的关键能力 [7] 公司战略与发展路径 - 公司正通过“最强开源模型+最全实体生态”的双轮驱动,走出一条不同于硅谷的道路 [9] - 其战略重点不仅是做会聊天的Chat,更是要做能办事的Agent [9] - 公司正利用其独有的全栈能力,试图解决行业推理成本的摩尔定律与商业变现的“最后一公里”难题 [2] - 当AI从“尝鲜”走向“实用”,拥有算力定价权和商业履约能力的公司,正在展露其在AI时代的真实力量 [10]