Workflow
谷歌(GOOG)
icon
搜索文档
谷歌模型重大升级!清华系姚顺宇参与
第一财经· 2026-02-13 16:50
谷歌Gemini 3 DeepThink模型重大升级 - 谷歌于北京时间2月13日发布了Gemini 3 DeepThink的重大升级,该模式是专门用于解决科学、工程领域复杂任务的推理模式 [3] - 谷歌CEO表示,公司通过与科学家和研究人员紧密合作对DeepThink进行改进,以应对缺乏明确原则、数据杂乱等现实挑战,旨在将科学知识与工程实践结合以推动实际应用 [5] - 此次升级使DeepThink模式更进一步,能够支持研发人员开展研究级的数学探索工作 [7] 模型性能表现与基准测试结果 - 该模型在多项基准测试中创下新纪录,超越了Claude Opus 4.6、GPT-5.2以及谷歌自家的Gemini 3 Pro Preview [6] - 在“人类最后的考试”测试中,DeepThink取得了48.4%的成绩(不使用工具),刷新最佳纪录,而Claude Opus 4.6和GPT-5.2的成绩分别为40%和34.5% [6] - 在ARC-AGI-2测试中,DeepThink取得了前所未有的84.6%的成绩,此前最强模型得分在60%-70%之间,Claude Opus 4.6的成绩是68.8% [6][8] - 在竞技编程基准测试平台Codeforces中,DeepThink的Elo评分为3455分,相当于全球编程能力前8的水平 [6] - 该模型在化学和物理等科学领域表现出色,在2025年国际物理和化学奥林匹克竞赛的笔试部分取得了金牌级别的成绩 [6] 实际应用案例展示 - 罗格斯大学的一位数学家利用DeepThink审阅一篇高度专业的数学论文,模型成功识别出一个此前人工同行评审均未发现的细微逻辑缺陷 [8] - DeepThink被用于优化复杂晶体生长的制备方法以探索新的半导体材料,在杜克大学的案例中,其设计的方案培育出了尺寸超过100微米的薄膜,技术指标超过此前所有方法 [8] - 该模型能够分析图纸、对复杂形状进行建模并生成文件,以通过3D打印创建物理对象 [8] - 模型旨在推动实际应用,使研究人员能解释复杂数据,使工程师能通过代码对物理系统进行建模 [8] 行业反响与产品发布 - 行业从业者对模型在ARC-AGI-2测试中取得84.6%的得分感到震惊,因为大多数人在此类抽象推理题上都很难达到80%的正确率 [8] - 有AI从业者认为,若模型在识别新模式方面达到如此水平,应称之为“外星智能”而非聊天机器人,并指出其Codeforces的Elo 3455分属于“传奇大师”级别 [9] - 有谷歌前工程师评论,模型能发现人类审稿人忽略的逻辑缺陷,意味着它已从辅助工具转变为合作者,跨越了人工智能辅助与验证研究人员工作的界限 [9][10] - 谷歌表示,DeepThink现已在Gemini应用中上线,供Google AI Ultra订阅用户使用,并首次通过Gemini API向部分研究人员、工程师和企业开放使用权限 [10] 核心研发团队 - 去年9月加入谷歌DeepMind的清华物理系知名研究者姚顺宇是这次DeepThink新模型的核心参与者 [3]
计算机行业月报:中国AI超级周开启,算力呈现提价趋势-20260213
中原证券· 2026-02-13 16:11
报告行业投资评级 - 给予计算机行业“强于大市”的投资评级 [3][6] 报告核心观点 - 2026年AI应用落地进度远超市场预期,将对软件、影视、传媒等传统行业带来直接冲击 [6] - 国内大模型迎来产品密集发布期,性能对标海外模型,在算力消耗和价格上优势极为明显,2026年国产AI大模型将形成对海外头部模型的替代,可能导致全球AI模型竞争格局重塑 [6] - AI推理需求大幅提升带来算力紧张,模型厂商、云厂商均出现涨价动作,对产业链企业形成利好 [6] 行业数据总结 - **软件行业整体**:2025年软件业务收入15.48万亿元,同比增长13.2%,增速较1-11月回落0.1个百分点,结束了连续9个月的回升趋势 [12];2025年软件业务利润总额18848亿元,同比增长7.3%,低于收入增速5.9个百分点 [13];2025年1-11月软件业务出口金额627亿美元,同比增长7.7% [14] - **高景气子行业**: - **IC设计**:2025年收入同比增长18.9%,高于软件行业整体增速5.7个百分点,是景气度最高的子行业 [17] - **云计算+大数据服务**:2025年收入同比增长13.6%,高于软件行业整体增速0.4个百分点 [17] - **其他子行业**: - **基础软件**:2025年收入同比增长11.1%,低于行业整体增速2.1个百分点 [20] - **工业软件产品**:2025年收入同比增长9.7%,景气度偏弱但呈回升态势 [20] - **电子商务平台技术服务**:2025年收入同比增长12.7%,低于行业整体增速0.5个百分点 [24] - **信息安全**:2025年收入同比增长6.7%,低于行业整体增速水平 [25] - **嵌入式系统软件**:2025年收入同比增长9.3%,落后于行业平均增速 [25] - **收入结构**:2025年信息技术服务收入增速14.7%,高于软件业务整体增速1.5个百分点,占软件业务整体收入比重提升至68.7% [27] AI领域动态总结 - **大模型发布密集**:2026年2月预期发布的模型包括豆包大模型2.0、DeepSeek-V4、Kimi-K3、Claude Sonnet 5、阿里的Qwen3.5等,春节期间模型市场竞争格局有望呈现较大变化 [6][33] - **中美模型策略分化**:美国头部模型(如Claude Opus 4.6、GPT-5.2)多采取闭源策略,而中国头部模型(如DeepSeek-V3.2、Qwen3-Max、Kimi K2.5)多采用开源策略 [38] - **模型价格与涨价趋势**:国产模型调用价格明显低于海外模型,优势显著 [39];2026年2月出现涨价趋势,如Anthropic的Claude Opus4.6极速版价格是原版的6倍,智谱GLM Coding Plan套餐价格上涨30%起 [39] - **AI原生应用用户**:截至2025年12月,国内月活跃用户最高的AI原生APP分别为豆包(1.55亿)、DeepSeek(0.82亿)、元宝(0.21亿) [49];截至2025年12月,豆包大模型的日均token使用量突破50万亿,较上年同期增长超过10倍 [53] - **视频生成突破**:字节推出的Seedance2.0在人物一致性、动作流畅性、音频适配性上远超之前视频生成模型,可能深刻改变影视、游戏等行业的生产模式 [6][55] - **MaaS市场格局**:MaaS是AI云中增长最快的细分市场,Omdia预测2030年中国MaaS市场规模达177亿元,2025-2030年复合增速72% [56];截至2025年10月,全球企业级MaaS市场中,OpenAI、谷歌云、字节占比分别为31%、19%、15% [56];2025年上半年中国大模型公有云服务市场中,字节市场份额为49.2%,阿里份额27% [59] - **模型厂商财务**: - **OpenAI**:年化收入从2023年的20亿美元增长至2025年预计的200亿美元,算力从2023年的0.2GW增长至2025年预计的1.9GW [61];2025年第三季度亏损超过120亿元 [61] - **Anthropic**:2025年年化收入从年初10亿美元跃升至年底逾90亿美元,2026年2月13日已达140亿美元,目标2026年收入300亿美元 [64];2026年2月13日完成300亿美元G轮融资,投后估值达3800亿美元 [64] - **AI Agent爆发**: - **Clawdbot/OpenClaw**:开源AI智能体,可根据用户指示使用电脑、应用程序和网络完成复杂任务,其火爆导致Mac mini硬件销售火爆 [65];阿里云上线了Clawdbot全套云服务,腾讯、字节等也接连更新云上部署 [70] - **Claude Cowork**:Anthropic推出的桌面AI Agent,其强大的功能引发市场对软件企业SaaS模式面临颠覆风险的担忧 [72];Cowork开发周期仅10天,由4人团队在Claude Code辅助下完成 [72] - **科技企业裁员**:2026年初,科技企业裁员呈现加快趋势,如微软计划裁员涉及5%-10%的员工(对应1.1-2.2万人),Meta对元宇宙业务部门裁员约1500人,甲骨文可能裁员2-3万人以释放现金流 [73][74][77] 国产化进展总结 - **芯片国产化率**:2025年,我国集成电路国产化占比约为17%(即进口依赖度81%) [78];2025年上半年,我国AI芯片国产化比率从2024下半年的34%提升至35% [81] - **海外芯片供应受限**:英伟达H200仍受禁令限制 [6];英伟达2025年第三季度来自中国大陆的收入占比降至5% [79];AMD的MI308实现了少量对华供货 [86] - **国内AI芯片企业上市潮**:摩尔线程、沐曦股份于2025年12月在A股上市,壁仞科技、天数智芯于2026年1月在港交所上市,百度昆仑芯已向港交所递交上市申请,阿里平头哥有独立上市计划 [82] - **国内AI芯片企业业绩**: - **寒武纪**:2025年收入预计60-70亿元,同比增长410%-596% [82] - **沐曦股份**:2025年收入预计16-17亿元,同比增长408%-468% [82] - **摩尔线程**:2025年收入预计14.5-15.2亿元,同比增长231%-347% [82] - **海光信息**:2025年前三季度收入94.9亿元,同比增长55% [82] - **华为昇腾芯片**:昇腾将在2026年第一季度发布昇腾950PR,实现低精度计算能力,并加入自研HBM HiBL 1.0,将从根本上解决被美国禁令限制HBM的窘境 [6][91] - **超节点(Scale Up)发展**: - **华为Atlas 900**:已规模销售超过550套 [100] - **中科曙光scaleX 640**:发布全球首个单机柜级640卡超节点,采用浸没相变液冷方案 [96];以scaleX 640为基础的国家超算互联网郑州核心节点3万卡AI算力集群已上线,是全国首个投入运营的最大国产AI算力池 [100] - **未来规划**:华为计划于2026年第四季度发布Atlas 950 SuperCluster集群(52万+卡),2027年第四季度发布Atlas 960 SuperCluster集群(99万+卡),后者算力将是当前世界最大集群xAI Colossus的1.3倍 [99][102] - **鸿蒙系统**:纯血鸿蒙系统(HarmonyOS NEXT)终端设备数已于2026年1月25日突破4000万 [101];2025年第三季度,鸿蒙占据中国手机操作系统18%的市场份额,位居第二;占据全球4%的市场份额,位居第三 [105] 算力领域总结 - **云厂商目标激进**:阿里云提出2026年发展目标是拿下全年中国AI云市场增量的80%,并判断2026年增量的10%都会大于2025年全量,意味着其认为2026年AI云市场将数倍于Omdia的预测值 [6] - **自研芯片进展**: - **阿里平头哥**:有独立上市计划 [6] - **字节跳动**:自研芯片计划2026年量产10万枚 [6] - **谷歌TPU**:2025年11月发布第七代TPU Ironwood,峰值算力4614 TFLOPS (FP8),可扩展至9216颗芯片集群,峰值算力达42.5 EFLOPS [122];2023年自用TPU芯片量已突破200万颗,成为全球第二大AI芯片厂商 [123];Meta将在2026年租用、2027年直接采购谷歌TPU [125] - **亚马逊Trainium**:2025年12月发布自研芯片Trainium3,采用3nm工艺,性能较Trainium2提升40% [126];正在研发Trainium4,目标FP4计算性能提升6倍、内存带宽提升4倍 [127] - **微软Maia 200**:在互联网厂商自研芯片中性能领先 [121] - **英伟达动态**: - **芯片性能**:2025年发布的B300芯片峰值算力为20 PFLOPS (FP4稀疏) [115];2026年将量产的Rubin架构芯片峰值算力达50 PFLOPS (推理,FP4) [116] - **超节点计划调整**:2026年1月实际发布的是72个GPU的Vera Rubin NVL72,而非2025年计划的144个GPU的NVL144 [116] - **外部技术投资**:2025年12月,英伟达斥资20亿美元投入新思科技项目,并以200亿美元获得AI芯片公司Grop核心技术的非独家授权,以弥补GPU在AI推理实时响应方面的不足 [120] - **海外资本开支**:海外科技厂商2026年资本开支计划大增,引起了市场担忧 [6] - **国内资本开支**:2025年仍受制于芯片供给,整体需求有望更好地释放 [8]
光通信重要增量:北美资本开支增长并未见顶,Scaleup是光通信重要增量
山西证券· 2026-02-13 15:55
核心观点 - 北美主要云服务提供商(CSP)的AI投资已从成本中心转变为收入引擎,2026年资本开支计划远超预期,表明AI驱动的资本开支超级周期尚未见顶 [2][5] - 市场对高昂资本开支的短期分歧可能创造了加仓机会,因为AI应用端(尤其是智能体工作流)驱动的Token增长无上限,且能通过产品包装实现高溢价,支撑持续的资本支出 [6][9][20][21] - 在光通信领域,CPO(共封装光学)与可插拔光模块的技术路线之争中,Scaleup(纵向扩展)场景将创造全新的增量市场,NPO(近封装光学)可能率先落地,市场对相关创新产品的估值应区别于成熟业务 [10][22] 行业动态:北美CSP AI投资与业务增长 - 北美主要CSP发布2025年财报,普遍传达AI已成为收入引擎,扩大投资需求急迫且真实 [2][17] - 云业务通过AI算力与工具实现高速增长:AWS云销售额同比增长20%至1287亿美元;谷歌云年化营收突破700亿美元;微软Azure年收入超750亿美元,同比增长34% [3][17] - AI智能体深度嵌入核心业务,成为增长催化剂:亚马逊AI购物助手Rufus创造120亿美元年化增量销售额;Gemini应用月活用户突破7.5亿;微软365 Copilot月活突破1亿,所有产品AI功能月活超8亿;GitHub Copilot企业客户数同比增长75% [4][18] 资本开支分析与市场观点 - 亚马逊、谷歌、微软和META公布的2026年资本开支总额预计达6600亿美元,较2025年激增60%,较2024年翻倍以上增长 [5][19] - 具体来看,亚马逊2026年资本开支预计为2000亿美元,超出市场预期500亿美元;谷歌计划将资本开支翻倍至1850亿美元 [5][19] - 报告认为此轮AI资本开支超级周期的见顶标志是云厂商收入增长的显著放缓,而当前由Claude Cowork、Copilot Studio等智能体工作流拉动的Token增长天花板无上限,且高算力产品(如Claude Opus 4.6“极速模式”定价为普通模式的6倍)能实现高溢价,因此CSP的激进资本支出“仍在路上” [6][9][20][21] 光通信技术路线与投资机会 - 近期CPO进展引发市场对光模块空间被侵蚀的担忧,但报告认为需区分Scaleout(横向扩展)和Scaleup(纵向扩展)场景 [10][22] - 在Scaleout场景(如AI训练集群),CPO在加速发展,但并未动摇可插拔光模块的市场根基(当前业绩的锚),预计到3.2T时代可插拔仍是主流方案 [10][22] - 在Scaleup场景(如机柜内、芯片间互联),其带宽有望达到Scaleout的5-10倍,将创造“光进铜退”的全新增量市场,NPO可能在CPO之前作为折中方案率先推出 [10][22] - 估值层面,报告认为市场应区分看待光模块龙头的成熟产品与NPO、OCS等创新产品,后者研发壁垒更高,对其采用统一估值有失公允 [10][22] 投资建议与关注公司 - 建议关注三大方向及相关公司 [11][23] - **Scaleup/NPO**:中际旭创、天孚通信、新易盛、环旭电子、华工科技、罗博特科 - **柜内无源**:致尚科技、长芯博创、仕佳光子、太辰光、光库科技、唯科科技、蘅东光 - **谷歌链**:中际旭创、联特科技、长芯博创、汇聚科技、腾景科技 市场行情回顾(2026.02.02-2026.02.06) - **整体市场**:主要指数普遍下跌,上证综指跌1.27%,沪深300跌1.33%,深证成指跌2.11%,创业板指跌3.28%,科创50跌5.76% [11][23] - **通信行业**:申万通信指数表现疲弱,周跌幅为6.95% [11][23] - **细分板块**:周涨幅最高的板块为光缆海缆(+19.05%)和控制器(+1.07%) [11][23] - **个股表现**: - 涨幅前五:长飞光纤(+17.20%)、通宇通讯(+9.26%)、网宿科技(+8.27%)、腾景科技(+7.29%)、东土科技(+5.31%) [11][37] - 跌幅前五:中际旭创(-16.79%)、联特科技(-14.73%)、仕佳光子(-14.42%)、科创新源(-13.43%)、新易盛(-13.21%) [11][37]
通信行业月报:北美云厂商资本开支强劲,CPO商业化应用拐点临近-20260213
中原证券· 2026-02-13 15:38
报告行业投资评级 - 维持通信行业“强于大市”投资评级 [1][7] 报告核心观点 - 北美云厂商资本开支强劲,CPO商业化应用拐点临近,光通信产业链上游关键物料供应持续紧张 [4][6] - AI手机渗透率快速提升,端侧模型精简与芯片算力升级推动其向中端价位段渗透 [6] - 国内电信行业结构持续优化,新兴业务收入占比提升,运营商资本开支重点转向算力网络建设 [6][45] 行情回顾 - 2026年1月,通信(中信)行业指数上涨5.47%,跑赢上证指数(+3.76%)、沪深300指数(+1.65%)、深证成指(+5.03%)和创业板指(+4.47%)[3][13] - 通信行业子板块中,线缆、其他通信设备、系统设备分别上涨19.70%、10.72%、7.85% [16] - 个股方面,世嘉科技、信科移动-U、亨通光电涨幅居前,分别上涨60.84%、43.10%、41.57% [17][20] - 通信行业ETF在1月均上涨,其中国泰中证全指通信设备ETF上涨6.20%,华夏中证5G通信主题ETF上涨4.79%,嘉实国证通信ETF上涨7.00% [22][23] 行业跟踪:全球云基础设施 - 25Q4北美四大云厂商(亚马逊、微软、谷歌、Meta)资本开支合计为1260亿美元,同比增长62.0% [6][24] - 2026年四大云厂商资本开支指引合计超6600亿美元,预计同比增长61.0% [6][24] - 亚马逊2026年资本支出指引为2000亿美元,预计同比增长55.9% [24] - 谷歌2026年资本支出指引区间中值为1800亿美元,预计同比增长96.9% [26] - Meta 2026年资本开支指引区间中值为1250亿美元,预计同比增长73.1% [27] - 25Q3,AWS、微软Azure、谷歌云在全球云基础设施市场的份额分别为32%、22%、11% [31][32][33] - 25Q3中国三大云厂商(阿里巴巴、腾讯、百度)资本开支合计为478.9亿元,同比增长32.2% [34] 行业跟踪:ICT市场 - IDC数据显示,2025年全球ICT市场总投资规模接近5.9万亿美元,预计2029年增至7.6万亿美元,五年复合年增长率为7.0% [39] - 2029年中国ICT市场规模预计接近8894.3亿美元,五年复合年增长率为7.0% [39] - 2025年中国企业级ICT市场规模约为3147亿美元,同比增长14.3% [39] - AI及算力部署是市场增长核心引擎,IDC预计2024-2029年中国企业级服务器和存储投资五年复合年增长率达21.7% [40] 行业跟踪:国内电信行业 - 2025年,电信业务收入累计完成1.75万亿元,同比增长0.7% [6][45] - 2025年,新兴业务收入达4508亿元,同比增长4.7%,在电信业务收入中占比提升至25.7% [45] - 截至2025年12月,5G移动电话用户达12.04亿户,占移动电话用户的65.9% [6][51] - 截至2025年11月,千兆及以上接入速率的固网宽带接入用户达2.38亿户,占总用户数的34.5% [6][54] - 2025年12月当月移动互联网户均流量达23.04GB/户·月,同比增长17.0% [6][57] - 截至2025年12月,全国5G基站总数达483.8万个,占移动电话基站总数的37.6% [61][72] - 2024年中国云计算市场规模达8288亿元,同比增长34.4%,其中公有云市场规模6216亿元,同比增长36.6% [69] - 2024年中国公有云IaaS市场规模达4201亿元,其中智算服务需求是增长主因 [74] - 2024年,天翼云、移动云分居中国公有云IaaS市场份额第二和第三位 [76] - 2024年国内三大运营商资本开支合计3188.8亿元,同比下降9.7%,预计2025年合计2898亿元,同比下降9.1% [89] - 中国移动预计2025年算力方面资本开支约为373亿元 [90] - 中国电信预计2025年产业数字化(算力)投资同比增长22% [92] - 中国联通预计2025年算力投资同比增长28% [93] 行业跟踪:手机行业 - 2025年12月,我国通讯器材类零售额同比增长20.9% [6][44] - 2025年全球智能手机出货量同比增长2%,达到12.5亿部 [6][103] - 25Q4全球智能手机市场同比增长4%,苹果以25%的市场份额领跑 [6][102] - 2025年中国大陆智能手机市场全年出货量为2.823亿台,同比下降1%,华为以4680万台的出货量重回第一 [110] - Canalys预计2025年AI手机渗透率将达到34% [6][128] - 最新的5G AI手机NPU芯片采用3nm工艺,算力达60至200TOPS,内存23GB,支持端侧330亿参数推理 [6][126] - IDC预计中国AI手机市场份额将在2027年超过50%,出货量达1.5亿台 [128] - 中兴通讯与字节跳动共同开发的“豆包助手”AI手机工程样机于2025年12月发售 [135] 行业跟踪:通信设备(光模块) - 2025年12月,中国光模块出口总额为38.9亿元,同比下降0.5% [141] - 2025年1-12月,中国光模块出口总额为374.6亿元,同比下降15.6% [141] - 2025年12月,中国对美国光模块出口总额为2.8亿元,同比下降80.0% [143] - TrendForce预计800G以上高速光模块在全球出货占比将从2024年的19.5%上升至2026年的60%以上 [6] - 光通信产业链上游核心元器件等关键物料供应持续紧张,Lumentum预计InP晶圆厂供应缺口约25-30% [6][7] - LightCounting预计EML和CW激光器芯片的短缺将制约市场增长直至2026年底 [6] - Lumentum预计CPO市场拐点临近,将在2027年底前开始交付首批用于scale-up的CPO产品 [7] - LightCounting预计2026年超过一半的光模块销售额将来自基于硅光调制器的模块 [7] 投资建议 - 建议关注光器件/光芯片/光模块领域的天孚通信、太辰光、源杰科技、仕佳光子、中际旭创、新易盛、光迅科技、华工科技 [7] - 建议关注光纤光缆领域,算力需求拉动光纤涨价,空芯光纤获得北美云厂商及国内三大运营商部署 [7] - 建议关注AI手机领域的信维通信、中兴通讯 [7] - 建议关注电信运营商中国移动、中国电信、中国联通 [7]
姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
36氪· 2026-02-13 15:32
谷歌Gemini 3 Deep Think模型性能突破 - 在Codeforces竞技编程平台上取得3455 Elo分数,相当于全球排名第8位,全球仅有7人的编程水平排在其前[1][2] - 在公认测试AI推理能力的前沿基准ARC-AGI-2上取得史无前例的84.6%得分,该成绩已经ARC Prize基金会验证[3][4][15] - 在Humanity's Last Exam基准测试中刷新SOTA,取得48.4%的成绩[3][4] - 在2025年国际数学奥林匹克竞赛中达到金牌水平,取得81.5%的成绩[4][15][26] - 在2025年国际物理奥林匹克竞赛笔试部分取得87.7%的成绩,在2025年国际化学奥林匹克竞赛笔试部分取得82.8%的成绩,均达到金牌级别[4][24][26] - 在MMMU-Pro多模态理解与推理基准测试中取得81.5%的成绩[4][26] - 在凝聚态理论基准CMT-Benchmark中取得50.5%的成绩[4][24][26] - 相比去年12月发布的初代Deep Think在ARC-AGI-2上45.1%的得分,新版模型在不到三个月内性能大幅提升至84.6%[19] - 在ARC-AGI-1基准上取得了96%的成绩[19] - 模型推理成本大幅降低,从初代Deep Think每项任务77.16美元的成本降低了82%,降至每项任务仅需13.62美元[21] 行业竞争格局与基准测试进展 - 在关键基准测试中,Gemini 3 Deep Think性能显著超越主要竞争对手:在ARC-AGI-2上优于Claude Opus 4.6的68.8%和GPT-5.2的52.9%[3][4] - 在Humanity's Last Exam基准上,Gemini 3 Deep Think的48.4%成绩优于Claude Opus 4.6的40.0%和GPT-5.2的34.5%[4][26] - 在Codeforces Elo评分上,Gemini 3 Deep Think的3455分显著高于Gemini 3 Pro Preview的2512分和Claude Opus 4.6的2352分[4][26] - 由于模型在ARC-AGI-1和ARC-AGI-2上表现卓越,ARC Prize基金会已在构建更难的ARC-AGI-3基准[24] 模型在科研与工程领域的实际应用 - 模型能够分析草图,对复杂形状进行建模,并直接生成用于3D打印的实体文件,例如成功打印了一个笔记本电脑支架[7] - 罗格斯大学的数学家利用该模型审阅高度专业的数学论文,成功识别出一个此前人工同行评审均未发现的细微逻辑缺陷[9] - 杜克大学的王安实验室利用该技术优化了复杂晶体生长的制备方法,成功设计出一种能够生长厚度大于100微米薄膜的工艺,达到了以往方法难以企及的精确目标[10] - 模型擅长处理科学领域中的长尾任务,例如根据输入的复杂分子结构图片准确计算出分子式[11] - 官方表示,新版Deep Think是专门开发的推理模式,旨在推动智能前沿发展,并解决科学、研究和工程领域的现代挑战[4] 核心研发团队与人才背景 - 核心研发团队中有不少华人科学家,包括95后华人科学家Yi Tay,他在团队中从事强化学习和推理方向的研究工作[27] - Yi Tay曾在Google Brain共同领导早期大语言模型项目,包括PaLM-2、UL2和Flan-2,后作为联合创始人创办AI独角兽初创公司Reka,并于一年半后重返谷歌DeepMind担任高级资深研究科学家[28] - 另一位关键参与者是清华物理系传奇特奖得主姚顺宇,他于去年9月加入谷歌DeepMind,参与了Deep Think新模型的开发[5][28] - 姚顺宇本科期间已在《Physical Review Letters》发表高水平论文,首次在国际上给出了关于非厄米系统的拓扑能带理论,博士毕业于斯坦福大学,师从知名学者,在加入谷歌前曾于Anthropic参与Claude系列模型的研发[29][30]
软件股遭遇2010年来最大做空潮,高盛惊呼:市场“无处可藏”!
华尔街见闻· 2026-02-13 14:51
市场情绪与交易动态 - 美国软件及SaaS板块正遭遇自2010年以来最猛烈的做空攻击之一,周三和周四的单日做空规模触及十余年来的最高水平之一 [1][7] - 对冲基金在短暂的空头回补后迅速重启做空策略,新增空头规模仅略低于1月29日的历史高点,软件板块新增空头甚至超过1月末水平 [2][7] - 市场弥漫“先卖出、再问问题”的恐慌情绪,抛售速度在尾盘加快,但并无明确催化剂 [1][8] - 高盛周期股对比防御股的配对交易录得“解放日”以来最差两日表现,累计下跌逾350个基点,显示市场避险情绪显著升温 [6][8] - 高盛科技交易主管形容这是其见过的最动荡的交易环境之一,罗素科技指数已回落至200日移动均线,科技/成长板块众多股票呈现超卖迹象 [6][10] 行业与板块表现 - 软件及SaaS板块成为做空焦点,基础设施软件股在遭遇大量回补后重新承受沉重做空压力 [2][7] - 防御性板块加速跑赢周期性股票,例如Verizon在过去18个交易日中上涨了16天 [6][8][9] - “AI基础设施”主题出现分化,而软件、互联网和支付等领域的“成长股”陷入高度相关的抛售,包括SaaS、金融科技、电商、广告、游戏、市场平台等 [9] - 大型科技股(Mag 7)过去几个月已落后市场约7.5个百分点,这是非“市场事件”驱动回调中幅度较大的一轮 [11] AI影响与市场反应 - 市场对AI潜在的颠覆性影响变得极度敏感,担忧其正向更多子行业扩散 [4][9] - 微软AI部门CEO关于“多数白领岗位将在12个月内被AI取代”的言论冲击市场情绪 [4][8] - 运输物流公司CH Robinson因市场担忧AI聊天机器人可能削减人力需求,股价出现8个标准差的暴跌 [4][8] - 部分公司财报电话会议言论显示,市场对AI的叙事反应可能超前于实际业务变化,例如Tyler Technologies强调客户需要深度集成的实用AI,而Take-Two Interactive认为生成式AI只是其工作的很小一部分 [10] 主要市场指标 - 标普500指数隔夜下跌约1.55%,创下过去三个月来的第二大跌幅 [4][8] - 10年期美债收益率降至约4.08%,逼近三个月低点 [6][8] - VIX恐慌指数收盘站上20关口,显示市场避险情绪升温 [6][8] - 大型科技AI支出方和算力公司估值下降,例如亚马逊连跌8天、12天中下跌11天,谷歌8天中下跌7天,英伟达和博通自去年夏天以来股价持平 [9]
姚顺宇谷歌首秀,Gemini新模型刷爆SOTA:人类仅剩7人捍卫碳基编程
量子位· 2026-02-13 13:42
谷歌Gemini 3 Deep Think模型重大升级 - 面对Claude Opus 4.6和GPT Codex 5.3的竞争,谷歌推出了Gemini 3 Deep Think的重大升级[1] 在多项基准测试中刷新纪录 - 在Codeforces竞技编程平台上取得3455 Elo分数,相当于世界第8名[2] - 在ARC-AGI-2基准测试中取得史无前例的84.6%得分,远超之前最强模型的60%-70%区间以及Claude Opus 4.6的68.8%[3] - 在人类最后考试上刷新SOTA,取得48.4%的成绩[4] - 在2025年国际数学奥林匹克竞赛中达到金牌水平,取得81.5%的成绩[5][22] - 在2025年国际物理奥林匹克竞赛笔试部分取得87.7%的成绩,达到金牌级别[5][33] - 在2025年国际化学奥林匹克竞赛笔试部分取得82.8%的成绩,达到金牌级别[5][33] - 在CMT-Benchmark凝聚态理论测试中取得50.5%的分数[5][34] - 在MMMU-Pro多模态理解与推理测试中取得81.5%的成绩[5] - 在学术推理测试中取得53.4%的成绩[5] - 在ARC-AGI-1测试中取得96%的成绩,直接顶到天花板[27] 性能与成本优势显著 - 推理成本大幅下降,从初代Deep Think每项任务77.16美元降至13.62美元,降幅达82%[29] - ARC-AGI-2测试得分在不到三个月内从初代的45.1%飙升至84.6%[26] - 由于ARC-AGI-1和2均被刷爆,ARC Prize已在构建ARC-AGI-3[32] 定位为科研与工程助手 - 新版Deep Think旨在推动智能前沿发展,并解决科学、研究和工程领域的现代挑战[5] - 其野心不止于赢得基准测试,而是要走进科研和工程领域,帮助工程师处理复杂任务[7] - 模型可以分析草图,对复杂形状进行建模,并直接生成用于3D打印的实体文件[8] - 罗格斯大学数学家利用其审阅高度专业的数学论文,并成功识别出一个此前人工评审均未发现的细微逻辑缺陷[10][11] - 杜克大学实验室利用其优化复杂晶体生长的制备方法,成功设计出能生长厚度大于100微米薄膜的工艺,达到了以往方法难以企及的精确目标[13][14] - DeepSeek研究员表示其非常擅长处理科学领域中的长尾任务,例如输入复杂分子结构图片后能准确计算出分子式[16][17] 研发团队背景 - 研发团队中有不少华人身影[36] - 核心成员包括95后华人科学家Yi Tay,他在Gemini团队从事强化学习和推理方向研究,曾共同领导Google Brain的早期大语言模型项目,并曾联合创办AI独角兽公司Reka AI,后重返谷歌DeepMind担任高级资深研究科学家[37][38] - 另一位关键参与者是清华物理系传奇特奖得主姚顺宇,他于去年9月从Anthropic跳槽加入谷歌DeepMind,参与了此次新模型的开发[6][39] - 姚顺宇本科期间已在《Physical Review Letters》发表高水平论文,博士毕业于斯坦福大学,师从知名学者,在Anthropic期间参与了Claude系列模型的强化学习理论工作,此次Deep Think新模型是他在谷歌的首秀之作[41][42]
谷歌DeepMind CEO:今年开启AI抗癌药物临床试验,未来18个月迎来机器人突破
华尔街见闻· 2026-02-13 13:38
核心观点 - 谷歌DeepMind首席执行官Demis Hassabis在达沃斯论坛上描绘了AI发展的宏伟蓝图,核心是解决智能问题并用其解决其他所有问题,包括药物研发、能源危机等,预言未来10到15年人类将迎来“发现的黄金时代”和“新文艺复兴” [2][8][58] AI在生物医药领域的颠覆性潜力 - 通过其创立的Isomorphic Labs,目标是在2026年初将首个AI设计的药物送入临床试验 [4] - Isomorphic Labs正在研究癌症、心血管疾病和免疫学等多个治疗领域,已有17个药物项目正在推进,并计划扩展到数百个 [4][28] - 公司与礼来公司(Eli Lilly)等全球顶级制药巨头建立了合作伙伴关系 [4][28] - 传统药物研发平均耗时10年,耗资数十亿美元,成功率仅为10%,而AI的目标是将效率提高“几十万倍”,通过在“硅基”层面完成大部分搜索和设计工作,将实验室仅作为验证步骤 [4][25][28] - 此技术基于AlphaFold的突破,该模型解决了长达50年的蛋白质结构预测难题,以惊人准确性预测了2亿个蛋白质结构,并免费提供给全球300万研究人员使用 [19][21][22] 谷歌大模型Gemini与AI整合进展 - Gemini 3模型已经跨越了“分水岭时刻”,变得非常有能力,可用于研究、总结和编码等日常工作 [5][52] - 谷歌已重建基础设施,以便将最新模型的能力快速投射到搜索、YouTube、Chrome等核心产品端 [5][44] - 公司正在重拾“黄金时代”的特质,包括承担风险、快速发布和创新 [5][38] - 谷歌在2023年将DeepMind和Google Brain两个AI团队合并,以集中人才和计算资源,推动下一代AI发展 [34][36] - 2025年,谷歌在AI开发方面取得进展,包括推出热门图像生成模型Nano Banana和Gemini 3,推动母公司Alphabet股价上涨约65%,创下自2009年以来的最佳表现 [41][42][43] AI代理(Agents)、机器人技术与未来产品形态 - AI代理和更自主的系统将在2025年年底真正开始显现,用户可以将整个任务委托给它们 [6][52] - 智能眼镜被认为是潜在的杀手级应用载体,AI技术是使其真正可行的关键拼图,公司内部有关于“通用助手”的概念,该助手将跨越手机、电脑和眼镜等所有设备 [6][53][55] - 预测在接下来的18个月左右,将会看到机器人技术的突破时刻 [7][53] 对未来的宏观展望 - 未来10到15年,如果发展得当,人类将迎来一个新的“发现黄金时代”和一场“新文艺复兴” [2][58] - 人类健康将被彻底改变,个性化医疗将成为现实 [7][58] - AI还将用于解决能源危机(如核聚变、太阳能、电池技术),最终将人类带入一个“极度丰富”的世界,并有能力去“探索银河系” [7][58] - AI领域的变革速度极快,感觉几乎每年都在发生巨大变化,2025年也不例外 [8][52] 公司背景与战略 - Demis Hassabis于2010年联合创立DeepMind,公司使命是“解决智能问题,然后用它来解决其他所有问题” [14][15] - 谷歌在2014年以约5亿美元收购了DeepMind,此次收购被视作商业史上最具变革性的时刻之一,为谷歌奠定了AI领域的基础 [14][15] - 谷歌创始人拉里·佩奇和谢尔盖·布林深度参与公司的AI战略和具体项目,如Gemini [39][40] - 公司管理强调将世界一流的跨学科团队(如生物学家、化学家、机器学习专家和工程师)聚集在一起,并倡导持续改进(Kaizen)的文化 [31][35][37]
清华传奇姚顺宇立功,全新Gemini一夜血洗编程,全球仅7人能赢它
36氪· 2026-02-13 12:29
谷歌Gemini 3 Deep Think模型发布 - 谷歌DeepMind发布Gemini 3 Deep Think模型,在多个领域刷新了SOTA(State-of-the-Art)记录,标志着AI推理能力进入全新维度 [1] - 该模型在短短三个月内实现全方位性能突破 [1] 核心性能与基准测试结果 - **编程与算法**:在Codeforces竞赛中获得**3455 Elo**评分,达到世界冠军级水准,在全球人类排名中位列第7,击败了绝大多数人类选手 [7][8][10] - **抽象推理**:在ARC-AGI-2基准测试中获得**84.6%**的准确率,刷新SOTA,并获得ARC奖项基金会验证 [11][12][17] - **综合学术推理**:在“人类最后考试”(Humanity‘s Last Exam)基准测试中,在不使用工具的情况下获得**48.4%**的准确率 [10][21] - **多模态理解**:在MMMU-Pro基准测试中获得**81.5%**的准确率 [21][34] - **数学**:在2025年国际数学奥林匹克(IMO)基准测试中获得**81.5%**的准确率,达到金牌水平 [21][33][34] - **物理**:在2025年国际物理奥林匹克(理论)基准测试中获得**87.7%**的准确率 [21][34] - **化学**:在2025年国际化学奥林匹克(理论)基准测试中获得**82.8%**的准确率 [21][34] - **凝聚态物理理论**:在CMT-Benchmark测试中获得**50.5%**的准确率 [21][34] 与竞争对手的对比 - 在ARC-AGI-2基准测试中,Gemini 3 Deep Think(**84.6%**)的表现远超Gemini 3 Pro Preview(**31.1%**)、Claude Opus 4.6 Thinking Max(**68.8%**)和GPT-5.2 Thinking xhigh(**52.9%**) [17][21] - 在Codeforces Elo评分上,Gemini 3 Deep Think(**3455**)显著高于Gemini 3 Pro Preview(**2512**)和Claude Opus 4.6 Thinking Max(**2352**) [21][34] - 在高级数学证明(Advanced ProofBench)基准测试中,基于Deep Think的“AI数学家”Aletheia获得**91.9%**的准确率,远超GPT-5.2 Thinking high(**35.7%**)和Gemini 3 Pro(**30.0%**) [30] 科研与工程应用能力 - **科研辅助**:能够审查高深学术论文,并发现人类同行评审遗漏的细微逻辑漏洞 [23] - **工业设计**:可以根据草图渲染高保真、实用的3D模型(如笔记本电脑支架),并直接生成可3D打印的文件,将物理零部件建模速度提升十倍 [3][39] - **实验优化**:在杜克大学Wang Lab的测试中,成功设计出生长大于**100 μm**薄膜的配方,用于潜在的半导体材料发现 [39] - **物理模拟**:展现出强大的物理模拟能力,可以模拟光线追踪,并在单个HTML文件中构建完整的Three.js场景 [40][41][42] - **创意生成**:能够生成复杂且细节丰富的SVG矢量图像(如具有特定品种特征的鹈鹕骑自行车) [44][45][48] 技术进展与突破 - 基于初代Deep Think的“AI数学家”Aletheia已能独立撰写论文,证明了“Erdős猜想”中的多个难题,并一举攻克18大研究瓶颈 [29] - 模型在ARC-AGI-1基准测试上已达到接近饱和的**96.0%**准确率 [12][35] - 模型能够根据论文描述,为复杂的“时空循环视频Transformer”架构创建可视化方案 [36] 发布与可用性 - 目前,Google AI Ultra订阅用户可在Gemini中体验新版Deep Think [25] - 谷歌首次通过API向部分研究人员、工程师和企业开放该模型 [25] - 核心研发团队包括从Anthropic离职加入谷歌的华人学者姚顺宇 [3]
一天两枚“代码核弹”:OpenAI 祭出首个“主打实时协作”的 Codex 模型,谷歌放出 Gemini Deep Think,码力冲到世界前8
36氪· 2026-02-13 11:39
OpenAI发布GPT-5.3-Codex-Spark - 公司正式发布专为实时编码场景设计的GPT-5.3-Codex-Spark研究预览版本,该模型是从GPT-5.3-Codex主模型中“裁剪”而来的精简版本[1] - 模型定位并非替代现有Codex,而是补齐其在“即时交互”场景中的短板,目标是将人与模型之间的交互延迟压缩到接近“无感”的程度[3] - 此次发布是公司与芯片初创企业Cerebras合作的重要阶段性成果,上个月签署了一项金额超过100亿美元的协议以使用Cerebras硬件提升模型响应速度[3] - 模型核心是“速度”,专为实时使用而设计,支持针对性编辑、重塑逻辑或优化界面并立即查看结果,针对高频、碎片化、对即时反馈极度敏感的使用场景[4] - 在执行长时间运行任务方面展现出卓越优势,无需人工干预即可自主运行数小时、数天甚至数周,使Codex能同时支持长时间复杂任务和即时工作[4] - 模型在发布时拥有128k的上下文窗口,且仅支持文本,研究预览期间拥有独立的速率限制,使用量不计入标准速率限制[5] - 针对交互式工作进行了优化,用户可与模型实时协作,在运行过程中随时中断或重定向它,并快速迭代以获得近乎即时的响应[6] - 作为小型模型,在SWE-Bench Pro和Terminal-Bench 2.0等评估智能体软件工程能力的基准测试中表现出色,且完成任务所需时间远低于GPT-5.3-Codex[7] - 研发过程中实现了端到端的延迟优化,对底层架构进行了系统级优化,量化结果包括客户端/服务器单次往返开销降低80%,每个token的处理开销降低30%,第一个token的出现时间缩短50%[11][13] - 社区反馈关注在速度提升的同时,模型是否能维持足够的推理深度与代码质量,有观点指出速度快但有缺陷的代码毫无用处[12][14] 谷歌更新Gemini 3 Deep Think - 公司同步更新了旗下最具研究取向的推理模型Gemini 3 Deep Think,这是一次明确面向现代科学研究、工程建模与复杂推理问题的系统性升级[16] - 模型目标并非更流畅的对话体验,而是解决长期困扰科研人员和工程师的“硬问题”,这些问题往往缺乏明确解题路径、不存在唯一正确答案且数据不完整[20] - 更新是在与大量科学家和研究人员长期合作基础上完成的,设计思路偏向真实科研与工程实践,而不仅是抽象推理能力的展示[20] - 全新Deep Think已在Gemini应用中上线,供Google AI Ultra订阅用户使用,并首次通过Gemini API向部分研究人员、工程师和企业开放使用权限[20] - 在多项严苛学术基准测试中刷新当前水平,在Humanity's Last Exam中取得48.4%的成绩,在ARC-AGI-2测试中取得84.6%的成绩并已通过官方验证[24] - 在竞技编程平台Codeforces上,模型达到3455 Elo评分区间,属于极高段位,其编码能力排名世界第八[26][27] - 相比以往,此次更新明显扩大了能力覆盖范围,在化学、物理等多个科学领域中展现出显著提升[31] - 在2025年国际物理奥林匹克竞赛和国际化学奥林匹克竞赛的笔试部分均达到金牌级别表现,在CMT-Benchmark中取得50.5%的分数[31] - 在2025年国际数学奥林匹克竞赛的评测中,整体表现达到金牌水平[32] - 根据基准测试对比表格,Gemini 3 Deep Think在ARC-AGI-2、Humanity's Last Exam、国际数学奥林匹克、国际物理奥林匹克、国际化学奥林匹克及Codeforces等多个关键指标上领先于Gemini 3 Pro Preview、Claude Opus 4.6 Thinking Max及GPT-5.2 Thinking xhigh等对比模型[33] - 公司强调模型设计目标并非单纯在榜单中取得高分,而是定位为辅助研究与工程决策的工具,可用于帮助理解复杂数据、协助建模与仿真、提供多路径推理支持[34][37] - 社区反馈认为此次更新是重要的升级,有观点指出可将草图转化为3D打印模型的功能能提升原型制作速度近10倍,并认为人工智能缩短工程时间、改进科学建模及降低研发成本将带来真正变革[38][41]