Grok 4.1
搜索文档
马斯克:Grok 4.20下周发布,较4.1版改进重大
搜狐财经· 2026-02-15 17:41
Grok 模型迭代与性能表现 - xAI公司CEO宣布Grok 4.20版本将于下周发布,相比4.1版本将有重大改进 [1] - Grok 4.1版本于去年11月发布,在创造性、情感理解和协作互动方面实现了重大改进 [1] - Grok 4.1版本在LMArena文本能力排行榜上以1483的Elo分数高居榜首,领先第二名达31分 [1] Grok 模型技术优势与特性 - Grok 4.1的“即时响应”版本以1465的Elo分数位列第二,性能超越了其他所有模型的“全推理”模式 [3] - Grok 4.1版本相较于前代Grok 4(排名第33位)实现了巨大飞跃,印证了其在底层能力上的绝对优势 [3] - Grok 4.1版本改进了“幻觉”出现率,为用户提供更可靠、更准确的信息 [3]
又见印奇
36氪· 2026-01-27 08:25
文章核心观点 - 旷视科技联合创始人印奇基于AI 1.0时代商业化无法闭环的教训,认为AI 2.0时代必须找到明确的商业模式,其当前担任董事长的阶跃星辰选择“AI+智能终端”的软硬结合路径,旨在实现商业闭环,并已获得超过50亿元人民币的融资 [1][3][4][6][7] AI 1.0时代的教训与反思 - 旷视科技在AI 1.0时代是资本宠儿,曾获得7500万美元C轮融资并拥有高人才密度,但商业化上被认为不够主动饥渴 [1][2] - AI 1.0“四小龙”的共同宿命是缺乏自己的“印钞机”,无论如何商业都不能闭环,这对创始人伤害巨大 [2][3] - 印奇反思“拿着锤子找钉子”的模式,认为商业模式一旦试错很难回头,必须在3年内验证为合理的生意,商业闭环的结果比上市更重要 [3][4] 对当前AI商业化的观察与判断 - 不看好国内“六小虎”中大多数以及硅谷多数AI新贵的商业化,认为它们仍处于早期“拿着锤子找钉子”的阶段 [4] - 认为Google的Gemini能扳回一局是依靠搜索业务的“印钞机”,但其自身商业化也尚无清晰想法 [4] - 目前唯一看到成型且可能跑通的AI商业模式是xAI,因其与特斯拉结合,具备先天多模态和软硬结合基因,能服务企业客户 [5] 阶跃星辰的战略与商业模式 - 阶跃星辰获得超过50亿元人民币的新一轮融资,刷新了过去12个月国内大模型单笔融资规模记录 [6] - 公司战略是“AI与智能终端的结合”,旨在实现商业闭环,其“产品”是真正的硬件,而非单纯的AI代理 [7] - 公司放弃了“to 大B”的模式,认为在中国面向消费者的硬件产品才是实现商业闭环的路径,其to B收入已是“小虎”中最高的 [8][9][10] - 具体路径是用多模态基座模型能力服务手机厂商(实质是to C),并尝试推出未来形态的AI硬件 [10] 阶跃星辰的技术与团队 - 发布了Step3-VL-10B模型,仅100亿参数但在多项基准测试中碾压参数规模10-20倍的同行,部分能力可比肩GPT-4o等顶流闭源模型 [8] - 这种多模态能力出众的小参数模型是AI硬件的最佳搭档,可部署在端侧 [8] - 公司团队“骨骼清奇”,算法团队来自旷视,数据团队来自微软搜索,拥有顶尖研究人才,人才密度高且平衡 [12] - 公司有AGI信仰,目前是“多模态卷王”,计划在2026年使基座模型能力重返第一梯队 [13] 千里科技与协同愿景 - 印奇同时担任千里科技和阶跃星辰的董事长,两家公司合作密切 [6] - 千里科技围绕AI与车的关系,其目标是让千里智驾成为国内最好的智驾系统,跑在100万辆车上 [7][13] - 阶跃星辰与千里科技的协同,类似于xAI与特斯拉的关系,旨在通过软硬结合实现AI商业闭环 [5][7] 创始人的心态与理念 - 印奇自称已是“老登”,拥有“老灵魂”,信奉静水深流和长期主义,不再相信没有明确客户价值或商业价值的东西 [4][15] - 相较于“热血”,更强调商业闭环和交付离商业成果更近的成果 [14][15]
马斯克旗下AI企业,斥资超200亿美元加码算力基建
财联社· 2026-01-10 00:07
xAI的资本开支与扩张计划 - 公司计划斥资超200亿美元在美国密西西比州绍斯黑文市兴建一座数据中心 [2] - 该数据中心预计将于2026年2月启动运营 [3] - 新数据中心紧邻公司在绍斯黑文市新收购的发电厂,并靠近其位于田纳西州孟菲斯市的现有数据中心 [4] xAI的现有基础设施与算力布局 - 公司在田纳西州孟菲斯市拥有名为“巨像”(Colossus)的超级计算机集群,号称是全球最大的此类集群 [4] - 公司已在孟菲斯市建成首个数据中心Colossus,并正在附近建设第二个设施Colossus 2 [4] - 去年12月30日,公司买下一座大楼命名为“MACROHARDRR”,旨在将训练算力提升至接近2吉瓦的水平 [4] 行业竞争背景与公司战略目标 - 过去一年,全球科技巨头竞相斥巨资建设AI基础设施,以抢占AI竞赛主导权 [4] - xAI的最新扩张,旨在通过训练更先进的模型,更有力地与行业领军者OpenAI的ChatGPT和Anthropic的Claude展开竞争 [4] - 公司管理层认为,只要顺利度过未来两到三年,算力和数据容量的快速扩展将是战胜竞争对手的关键 [5] xAI的产品进展与技术展望 - 去年11月,公司发布了其旗舰聊天机器人Grok的新版本Grok 4.1,自称其为“迄今为止最强大的模型” [4] - 公司预计Grok 5将在明年一季度发布,该模型有10%的概率实现通用人工智能(AGI) [4] - 公司预测可能在未来几年内实现AGI,甚至最早可能在2026年实现 [5] xAI的财务状况与融资情况 - 去年前九个月,公司消耗了78亿美元现金,而去年第三季度录得14.6亿美元的净亏损 [5] - 公司现金消耗速度快,亏损不断增加,因其需花钱建设数据中心、招募人才并开发软件 [5] - 本周三,公司宣布已在最新一轮融资中筹集了200亿美元,超过了最初设定的150亿美元目标 [5] - 此轮融资使公司估值自去年春季以来翻了一番,达到2300亿美元 [5]
年终大冲刺,中美科技大厂都杀疯了
商业洞察· 2025-12-19 17:58
文章核心观点 - 全球科技大厂在年末集中发布重磅AI产品,竞争进入白热化阶段,标志着AI竞争焦点正从模型能力竞赛转向构建可调度、可执行、可协作的智能体(Agent)以及完整的平台化生态体系 [2][14][26][45][46] 国内大厂年末AI产品发布与竞争态势 - **阿里巴巴与蚂蚁集团**:阿里上线基于通义千问大模型的“千问”APP,定位C端生活服务入口,上线三天即推出覆盖119种语言的实时翻译功能,支持全球98%以上人口的常用语种 [4];蚂蚁发布“灵光”APP,主打移动端“自然语言30秒生成小应用”的高效创作工具 [4];两款产品构成阿里系从生活到工作的完整C端AI产品矩阵 [5] - **市场表现**:千问APP上线两天即冲入APP Store总榜前三;灵光APP上线6天下载量突破两百万,进入总榜前6 [7] - **字节跳动(豆包)**:推出全新的AI手机助手,将大模型能力直接嵌入硬件终端,具备跨应用执行复杂操作(如外卖比价、网购下单)的能力,实现了AI从被动问答向主动调度与执行的跨越 [8][11] - **生态合作**:字节正与多家手机厂商推进合作,计划以生态合作方式将豆包AI助手嵌入不同品牌机型,例如中兴旗下努比亚已发布搭载该助手的工程样机 [42] - **DeepSeek**:同期发布DeepSeek-V3.2和DeepSeek-V3.2-Speciale两个正式版模型,前者平衡推理与输出长度,后者强化长思考与复杂任务能力,目标同样是朝着“通用AI助手”迈进 [12][13] - **竞争状态**:在阿里、蚂蚁、字节和DeepSeek集中发力下,国内AI市场竞争在年底被推至新的高点,进入“白热化”阶段 [14] 硅谷技术风向对国内市场的推动 - **OpenAI**:发布GPT-5.1系列,并同步上线ChatGPT群聊功能,允许多个不同角色的AI在同一对话中协作,被视为从“单一助手”迈向“多智能体平台”的关键一步 [16][18][19] - **谷歌**:发布Gemini 3.0模型,被评价为“迄今最完整的一次大模型体系级升级”,重点提升推理、多模态理解能力,并首次将优化重点明确放在手机端推理效率与开发者平台建设上,释放出AI竞争从“模型能力竞赛”推向“全场景平台化”布局的信号 [20][21] - **市场反响**:Gemini 3.0获得OpenAI CEO萨姆·奥特曼和xAI创始人埃隆·马斯克的公开认可,其风头盖过GPT-5.1,并推动谷歌股价迎来爆发式上涨 [21][23] - **其他硅谷大厂**:xAI发布Grok 4.1,核心叙事指向“能够执行任务的Agent”;亚马逊发布第二代Nova大模型及Nova Forge平台,押注企业级定制化AI的规模化落地 [25] - **行业共识**:硅谷的系列发布显示,AI的主战场正从“更聪明的助手”转向“更可调度、可协作、可执行的智能体”,这一全球技术主线也推动了国内大厂的集中动作 [26][27] 科技巨头选择年末发布重磅AI产品的原因 - **传播效果最大化**:年末(西方圣诞新年、中国春节)社会重大新闻较少,是传统媒体的相对平静期,此时发布产品能以较低成本获得远超日常的媒体曝光与用户关注 [31][32] - **历史成功范式**:ChatGPT于2022年11月30日发布,恰逢西方假期窗口,迅速填补舆论真空,实现指数级用户增长,此范式后被各大厂商效仿,演变为“年关决战” [33][34] - **业务与战略节奏**:大厂一年内的数据积累、算力调度和优化实验在接近年末时达到可发布状态;在岁末推出“下一代模型”有助于率先定义来年的能力标准、产品预期与竞争门槛 [39] - **资本市场叙事**:年末是科技公司向董事会和投资人交卷的关键窗口,发布重量级模型能放大技术突破的震撼效应与市场声量,直接服务于估值管理与资本叙事 [39] - 例如,谷歌在年末发布Gemini 3.0,旨在向资本市场进行战略性回应,强化华尔街信心,并为年报提供增长叙事 [40][41][42] - DeepSeek若在年底推出领先模型,能强化其技术护城河认知,为下一年竞争争取更多资源与战略主动权 [39] - **商业落地占位**:年末是企业制定下一年度IT预算和技术采购计划的关键节点,此时发布商业化路径清晰的AI模型,更容易被纳入企业采购清单,为下一年度的大规模部署和营收转化提前占位 [42] AI竞争趋势的演变 - **竞争维度升级**:AI竞争正从“谁更早推出模型”加速转向“谁能更快构建完整体系”,模型能力、产品形态、生态协同与商业落地被同时考核,单点优势难以构成长期壁垒 [45][46] - **生态博弈触发**:当AI开始介入真实操作与用户行为(如豆包手机助手),平台之间的生态博弈已被提前触发,尽管引发了包括微信、支付宝、淘宝等主流应用的抵制 [44][45] - **未来启示**:大厂的“年关决战”是全球AI新赛跑的发令枪,预示着AI的下一个重点在于构建可调度、可协作、可执行的智能体及完整的平台化生态 [47]
AI 价值链-Google Gemini 3 Pro、Claude Opus 4.5、Grok 4.1 与 DeepSeek 3.2…… 谁才是真正的领导者?这意味着什么
2025-12-12 10:19
涉及的行业与公司 * **行业**:人工智能(AI)行业,特别是大型语言模型(LLM)领域、AI基础设施与半导体行业 [1] * **公司**: * **AI模型开发商**:Google(Gemini)、Anthropic(Claude)、xAI(Grok)、OpenAI(GPT)、Meta、DeepSeek [2][3][6] * **半导体与基础设施供应商**:NVIDIA(NVDA)、Advanced Micro Devices(AMD)、Broadcom(AVGO) [7][10] * **云服务与互联网平台**:Amazon(AMZN)、Alphabet(GOOGL)、Meta Platforms(META) [9][11][12] 核心观点与论据 * **近期模型性能评估**:Gemini 3 Pro 与 Claude Opus 4.5 在第三方基准测试中表现不相上下,而 DeepSeek v3.2 的领导地位声明受到更多质疑,因其基准测试排除了 Claude Opus 4.5 且在某些代理任务上承认落后 [3][14][16] * **缩放定律依然有效**:预训练和后训练的缩放定律显然并未失效,这增强了AI实验室及其资金支持者快速建设AI基础设施的信心 [4][15] * **OpenAI面临挑战**:OpenAI已从明显领先者地位滑落,可能已不在前三,原因包括GPT-5表现令人失望、连续三次预训练失败、关键人才大量流失以及管理层发出“红色警报” [6][18] * **计算稀缺是核心主题**:尽管新模型未使用 Blackwell GPU 且部分使用ASIC/TPU训练引发对NVIDIA护城河的担忧,但当前核心主题是计算稀缺,GPU和ASIC都将因此受益 [7][20][22] * **范式向产品化与货币化转移**:长期来看,行业范式可能从模型基准测试转向产品采用和货币化,Gemini 3 虽性能领先但未能取代 ChatGPT 在应用商店的榜首位置即是例证 [8][22] * **投资影响**: * **NVIDIA(NVDA)**:数据中心机会巨大且仍处早期,近期股价停滞反应过度,当前估值具有吸引力 [10][22] * **Broadcom(AVGO)**:强劲的2025年AI发展轨迹预计将在2026年加速 [10] * **AMD(MP)**:AI预期仍高,但与OpenAI的新交易有望推动进一步增长 [10] * **Amazon(AMZN)**:随着大量产能上线、Tranium 3 推出及企业级AI产品简化,AWS增长预计将加速 [11] * **Alphabet(GOOGL)**:Gemini 3 的发布和TPU叙事支撑了其强劲走势,但需关注从纯模型性能向产品采用的转变 [11][22] * **Meta(META)**:被认为是最有能力将AI货币化的公司之一,需平衡盈利增长与AI模型前沿进展 [12] 其他重要细节 * **模型发布与参数**:过去三周内发布了 Grok 4.1、Gemini 3 Pro、Claude Opus 4.5 和 DeepSeek v3.2 四款模型,DeepSeek v3.2 披露总参数量为 6850亿,每令牌激活约 370亿 参数 [2][16] * **基准测试数据**: * LLM Arena 总体排名显示 Gemini 3 Pro 第一,Grok 4.1-thinking 第二,Claude Opus 4.5 第三 [36] * Google 披露的基准测试中,Gemini 3 Pro 在多项测试领先,例如 Humanity's Last Exam(45.8%)、AIME 2025(100%)、Vending-Bench 2(平均净值 5,478.16 美元) [24] * **基础设施成本分析**: * 一个 GB200 / NVL 72 机架的物料成本(BOM)约为 341.3万美元,其中 GPU(含设计毛利)占比 38.8% [38] * 支持 1吉瓦(GW)数据中心容量的总资本支出约为 35.2亿美元,其中机架成本占 20.2亿美元 [39] * **估值与目标价**: * NVIDIA(NVDA):目标价 275美元,基于约 33倍 的 FY27/FY28 平均非GAAP每股收益预期 8.43美元 [43] * AMD(AMD):目标价 200美元,基于约 30倍 的 FY2026/27 平均非GAAP每股收益预期 6.95美元 [44] * Broadcom(AVGO):目标价 400美元,基于约 35倍 的 FY2026/27 平均备考每股收益预期 11.38美元 [45] * Amazon(AMZN):目标价 300美元,采用 SOTP 和 DCF 各占 50% 的估值方法 [46] * Alphabet(GOOGL):目标价 305美元,采用 2027年 EV/EBIT 倍数(23倍)和 DCF 各占 50% 的估值方法 [47] * Meta(META):目标价 870美元,采用 2027年 EV/Sales 倍数(8倍)和 DCF 各占 50% 的估值方法 [48]
Transformer作者爆料GPT-5.1内幕!OpenAI内部命名规则变乱了
量子位· 2025-11-30 19:30
AI发展现状与趋势 - AI发展并未放缓,而是呈现平稳的指数级增长,类似于摩尔定律,其进步由新技术、算力提升和工程优化共同驱动 [13][15][16][17] - 行业底层范式正经历从预训练模型向推理模型的静悄悄但本质性的转换,其意义不亚于Transformer的诞生 [1][2][18][19] - 外界感觉进展变慢的原因包括:预训练处于S曲线上升后期,投入产出比下降;行业重心转向更小、更便宜但质量相当的模型 [19][21] 推理模型的技术特点 - 推理模型的核心在于思维链,即在给出答案前先进行思考,并可使用工具(如浏览网页)以提升答案准确性 [23][27][28] - 训练方式从传统的梯度下降转向强化学习,通过奖励机制和细致的数据准备来优化模型,未来将应用更复杂的强化学习 [29][30] - 多模态推理是下一个突破点,目前仍处于起步阶段,强化学习将助力其进一步提升 [9][32] OpenAI模型迭代策略 - GPT-5.1并非简单的小版本迭代,而是一次巨大的稳定性迭代,改进集中于后训练阶段,如增强安全性、减少幻觉、增加风格选择 [34][36] - 版本命名规则转变为以用户体验为导向,例如GPT-5为基础模型,GPT-5.1为能力更优版本,Mini为更小更快的版本 [38] - 内部采用多项目并行(强化学习、预训练等)再通过蒸馏技术整合的灵活开发模式,大大缩短了模型迭代时间 [38] 模型能力与挑战 - 模型能力实现质的飞跃,例如ChatGPT从直接记忆答案转变为主动推理,Codex已改变程序员的工作流程 [23][24] - GPT-5.1在复杂任务(如奥林匹克竞赛题)上表现优异,但在需要多模态推理和上下文迁移的简单任务(如奇偶数判断)上仍存在明显短板 [41][42] AI未来应用展望 - AI不会让人类完全失去工作,高风险、高关注度场景仍将依赖人类专家,但基础工作的可替代性将提高,工作内容将发生变化 [10][62][65][66] - 家用机器人被视为继ChatGPT之后最直观的AI革命,其进展取决于多模态能力、通用强化学习和物理世界推理的突破 [11][67][69] Transformer与OpenAI背景 - Transformer的八位共同作者从未在同一物理房间共同工作,当时业界对单一模型处理多任务的想法普遍不理解 [50][51] - OpenAI内部组织架构灵活,根据项目自发组队,但存在GPU资源竞争,预训练消耗资源最多,其次是强化学习和视频模型 [55][56][57]
AI周报 | DeepSeek开源奥数金牌水平模型;前OpenAI 联创称规模扩展时代已终结
第一财经· 2025-11-30 08:48
DeepSeek模型进展 - 开源首个达到国际奥林匹克数学竞赛金牌水平的数学模型DeepSeek-Math-V2 [1] - 模型部分性能优于谷歌旗下的Gemini DeepThink [1] - 行业头部厂商近期密集迭代模型,包括OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列 [1] AI技术路线与行业观点 - 前OpenAI联合创始人伊利亚·苏茨克维认为AI规模扩展时代已终结,主流路线遇到瓶颈 [2] - 其观点指出算力规模已很大却不能持续带来更好的扩展,扩展与浪费算力界限模糊 [2] - 未来需要解决大模型泛化能力比人类差的问题,AI可能缺少人类情绪这种价值函数 [2] 百度组织架构调整 - 百度新设立基础模型研发部与应用模型研发部两大部门 [3] - 基础模型研发部由吴甜牵头专注通用人工智能大模型研发,应用模型研发部由贾磊负责聚焦业务场景专精模型调优 [3] - 新设部门均直接向百度CEO李彦宏汇报,体现推进干部年轻化决心 [3] 英伟达市场动态与回应 - 英伟达股价一度重挫逾7%,市值瞬间蒸发近3500亿美元,最终收跌2.59% [4] - 公司回应大空头迈克尔·伯里言论,称战略投资在营收中比例较小,投资组合公司主要从第三方客户获取收入 [4] - 投资者对AI算力真实需求和投入能否转化为足够收益产生怀疑 [4] 谷歌硬件与芯片动态 - 谷歌重启AI眼镜项目,硬件代工由富士康负责,参考设计由三星提供,芯片由高通提供 [5][6] - 项目已进入小批量试产阶段,预计最早2026年第四季度发布 [6] - 谷歌自研第七代TPU单芯片峰值算力可达4614TFLOPs,是目前性能最强大、能效最高的自研芯片 [10] AI产业链公司动态 - 工业富联澄清第四季度业绩目标下调传闻,称英伟达GB200、GB300等相关产品出货均按计划推进 [8] - 公司股价从10月30日到11月24日累计下跌30.77%,但11月25日至28日累计上涨8.54% [8] - 天孚通信辟谣获谷歌30亿美元订单,称信息不实 [9] AI行业资源消耗与挑战 - 汇丰银行分析指出OpenAI至2030年仍难盈利,即便用户规模覆盖全球成年人44%且营收可能突破2130亿美元 [7] - OpenAI目标在本年代末达到36GW算力,接近美国中型州用电量,预计自由现金流仍为负,整体缺口达2070亿美元 [7] - 摩根士丹利报告指出AI不仅是主要电力消费者,也是吃水大户,数据中心严重依赖水资源 [11][12]
吊打谷歌!DeepSeek开源首个“奥数金牌”AI
格隆汇· 2025-11-28 15:09
产品发布与定位 - 公司于近期发布新模型DeepSeekMath-V2,这是一个专注于数学领域的模型 [1] - 该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型 [2] - 模型采用Apache 2.0开源许可证向全球开发者开放权重 [10] 性能表现与基准测试 - 在Basic基准测试中得分接近99%,显著高于谷歌Gemini Deep Think的89% [4] - 在Advanced子集上得分61.9%,略低于Gemini Deep Think的65.7% [4] - 在IMO 2025中破解5题,达到金牌水平 [4] - 在CMO 2024中达到金牌水平 [4] - 在Putnam 2024中得分118接近满分,超越人类参赛者最高分90分 [4] - IMO 2025解题率为83.3%,CMO 2024解题率为73.8%,Putnam 2024解题率为98.3% [7] 技术突破与创新 - 模型引入自验证数学推理的新训练范式 [2][10] - 技术核心是训练一个准确可靠的验证器专门负责检查定理证明的每一步 [10] - 生成器学会在生成证明过程中主动识别和修正自身问题 [11] - 通过扩展验证计算量自动标注难以验证的证明并持续训练验证器 [11] 行业影响与市场反应 - 发布时机精准卡位于头部厂商密集发布新模型的11月 [10] - 打破了闭源模型在顶级数学推理领域的垄断格局 [10] - 国外开发者评价为惊人的发布并以鲸鱼归来形容公司的回归 [8] - 以10个百分点优势超越谷歌的DeepThink令市场感到意外 [8] - 行业正密切关注公司下一代旗舰模型的发布计划 [11]
DeepSeek上新,“奥数金牌水平”
第一财经· 2025-11-28 08:40
模型发布与性能表现 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在IMO-ProofBench基准测试中,模型在IMO 2025题目上取得83.3%的成绩,在CMO 2024上取得73.8%的成绩,在Putnam 2024上取得98.3%的成绩[4] - 在Basic基准上,模型取得近99%的高分,远高于第二名谷歌Gemini DeepThink的89%;在更难的Advanced子集上,模型得分为61.9%,略低于Gemini DeepThink的65.7%[5] 技术创新与研究方向 - 模型从结果导向转向过程导向,通过自我验证方法教会AI像数学家一样严谨审查证明过程,不依赖大量数学题答案数据[8] - 该技术突破当前AI数学推理的研究局限,即正确最终答案不能保证推理过程正确的问题,展示了强大的定理证明能力[8] - 公司在技术论文中指出,可自我验证的数学推理是可行研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外市场反应积极,有评论称"鲸鱼终于回来了",并认为公司以10个百分点优势击败谷歌IMO Gold获奖模型超出预期[9] - 行业期待公司的下一步动作,特别是在头部厂商如OpenAI、xAI、谷歌相继发布新模型后,市场关注公司旗舰模型的更新计划[10]
DeepSeek上新,“奥数金牌水平”
第一财经· 2025-11-28 08:35
模型发布与性能表现 - 公司于2025年11月27日晚在Hugging Face上开源新模型DeepSeek-Math-V2,这是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在Basic基准上,该模型取得近99%的高分,远高于第二名谷歌Gemini Deep Think的89%[5] - 在更难的Advanced子集上,该模型分数为61.9%,略逊于谷歌Gemini Deep Think的65.7%[5] 技术创新与突破 - 模型从结果导向转向过程导向,具备强大的定理证明能力,不依赖大量数学题答案数据,而是教会AI像数学家一样严谨地审查证明过程[8] - 该技术突破当前AI数学推理的研究局限,即正确的最终答案不能保证正确的推理,通过自我验证来扩展测试时间计算,特别是针对没有已知解决方案的开放问题[8] - 模型在IMO 2025和CMO 2024上取得金牌级成绩,在Putnam 2024上通过扩展测试计算实现接近满分的118/120分[8] 行业影响与市场反应 - 海外市场反应积极,有评论称“鲸鱼终于回来了”,并以10个百分点优势击败谷歌的IMO Gold获奖模型DeepThink[9] - 行业头部厂商模型近期密集迭代,包括OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列,市场期待公司下一步动作[9] - 外界更关注公司旗舰模型的更新时间,行业期待“鲸鱼”的下一个动作[9]