Workflow
Seek .(SKLTY)
icon
搜索文档
不只是“做题家”!DeepSeek最新模型打破数学推理局限,部分性能超越Gemini DeepThink
钛媒体APP· 2025-11-28 13:45
模型发布与核心创新 - 公司于11月27日晚间在Hugging Face发布最新开源数学模型DeepSeek Math-V2 [1] - 模型核心创新在于采用自验证方法突破AI深度推理局限 通过验证器训练证明生成器并激励其自我识别和解决证明中的问题 [1] - 该方法旨在解决大模型在数学领域“只重视答案却无法保证推理过程严谨正确”的症结 推动从“结果导向”转向“过程导向”的验证 [1][5] 性能表现与基准测试 - 模型在IMO 2025和CMO 2024上取得金牌级成绩 在北美Putnam 2024竞赛中获118/120接近满分 [2] - 在IMO-Proof Bench基准测试中得分高达99% 高于谷歌Gemini Deep Think的89%和GPT 5的59% [3] - 在IMO-Proof Bench进阶测试中得分61.9% 仅次于谷歌Gemini Deep Think的65.7% [3] - 模型是首个开源的IMO金牌级模型 并在部分性能上展现出比OpenAI和谷歌更大的优势 [2][3] 行业影响与专家评价 - 行业观点认为模型标志着从“聊天机器人”时代过渡到“推理者”时代 其自验证数学推理方法是一个可行的研究方向 [5][8] - 开源模型将有助于自动化注重验证的编程语言中的繁琐工作 其全天候数学推理能力潜力巨大 [5] - AI领域KOL和专家评价称“DeepSeek强势回归” 认为这是“无法忽视的力量” [8][9] - 跨学科团队Binary Verse AI指出模型突破了本科数学瓶颈 其意义不仅在于竞赛分数更在于方法论的创新 [6][8]
新突破!DeepSeek推出新模型,科创AIETF(588790)红盘震荡
新浪财经· 2025-11-28 11:15
上证科创板人工智能指数及科创AIETF表现 - 截至2025年11月28日10:51,上证科创板人工智能指数上涨0.22%,成分股中科星图上涨4.13%,虹软科技上涨3.00%,恒玄科技上涨2.68%,优刻得上涨1.82%,乐鑫科技上涨1.20% [1] - 科创AIETF最新报价0.76元,近1周累计上涨1.75%,盘中换手1.96%,成交1.17亿元,近1年日均成交3.90亿元,在可比基金中排名第一 [1] - 科创AIETF近半年规模增长28.48亿元,本月以来份额增长3.18亿份,最新资金净流出1.10亿元,但近19个交易日内有11日资金净流入,合计流入2.49亿元,日均净流入1312.05万元 [3] 人工智能行业基本面与发展趋势 - 中国生成式人工智能处于高速发展阶段,AI相关公司基本面正在改善,软件和硬件领域均存在超预期空间 [2] - AI应用需求持续向好、国产算力快速崛起、模型能力达标,行业发展态势明朗,2026年AI应用的普及和创新仍是核心,赛道正转向应用落地新阶段 [2] - 2025年初DeepSeek的出现改写了国产大模型的叙事逻辑,中国科技股重回全球投资者视野,AI算力板块领涨市场,模型和应用端迎来局部爆发 [1] 技术与产品进展 - DeepSeek于2025年11月27日晚在HuggingFace推出新型数学推理模型DeepSeekMath-V2,新模型采用可自我验证的训练框架 [1] - DeepSeekMath-V2基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化模型性能 [1] 指数成分与权重结构 - 上证科创板人工智能指数从科创板市场选取30只市值为人工智能提供基础资源、技术及应用支持的上市公司证券作为指数样本 [3] - 截至2025年10月31日,指数前十大权重股为澜起科技、金山办公、寒武纪、芯原股份、石头科技、晶晨股份、恒玄科技、复旦微电、云天励飞、道通科技,前十大权重股合计占比70.92% [3]
DeepSeek上新模型;摩尔线程部分新股遭弃购丨科技风向标
21世纪经济报道· 2025-11-28 10:05
人工智能与模型进展 - DeepSeek推出新型数学推理模型DeepSeekMath-V2,在IMO 2025和CMO 2024中达到金牌水平,并在Putnam 2024竞赛中取得118/120的优异成绩[2] - 夸克发布AI眼镜,接入阿里千问,采用高通AR1旗舰芯片加恒玄BES2800芯片的双芯设计,S1系列最低到手价3799元,G1系列最低到手价1899元起[4] - 北京拟在700-800公里晨昏轨道建设超过千兆瓦功率的大型数据中心系统,计划分三个阶段,于2035年前建成大规模太空数据中心[10] 半导体与芯片动态 - 台积电指控前资深副总经理罗唯仁在退休后加入英特尔,可能使用或泄露台积电营业秘密,英特尔否认相关指控[11] - 东芯股份公告其投资企业上海砺算与某国内领先云计算服务商签署《战略合作框架协议》,但尚未签署具体订单[12] - 沐曦股份发布科创板IPO发行安排,拟公开发行4010万股股票,募集资金39.04亿元,有望成为第二家登陆A股的国产GPU公司[13] 企业战略与资本运作 - 惠普公司计划到2028财年全球裁员4000至6000人,约占员工总数10%,预计承担约6.5亿美元重组及相关费用[3] - 字节跳动正与沙特Savvy Games Group就出售沐瞳科技进行谈判,交易结果尚不确定[5] - 海昌新材拟以2.346亿元现金收购信为通讯51%股权,交易完成后信为通讯将纳入公司合并报表范围[15] - 无问芯穹完成近5亿元A+轮融资,由珠海科技集团、孚腾资本领投,多家老股东跟投[16] 光通信与硬件技术 - 天孚通信具备800G及1.6T高速光引擎的量产能力,1.6T产品已在正常交付,泰国生产基地分两期投产,预计2026年各产品线将增加产能[6] 行业政策与监管 - 国家发改委表示人形机器人产业规模以超50%增速发展,目前中国有超过150家人形机器人企业,半数以上为初创或跨行入局[7] - 官方回应"充电宝3C认证全面失效"传闻,称移动电源标准仍处于征求意见阶段,已获3C认证的充电宝可继续正常使用[10] 资本市场表现 - 摩尔线程IPO网上投资者放弃认购29302股,放弃认购金额334.86万元,网下投资者无放弃认购情况[14] 企业合作与协议 - 冰川网络拟与关联方成都时间赛跑科技签署《海外独家代理协议》,代理运营《魔法战争》游戏[9]
DeepSeek上新模型;摩尔线程部分新股遭弃购丨新鲜早科技
21世纪经济报道· 2025-11-28 09:56
AI与算力技术进展 - DeepSeek推出新型数学推理模型DeepSeekMath-V2,在IMO 2025和CMO 2024中达到金牌水平,在Putnam 2024取得118/120分,模型代码与权重已开源[2] - 天孚通信具备800G及1.6T高速光引擎量产能力,1.6T产品已正常交付,泰国生产基地分两期投产,预计2026年各产品线将陆续增加产能[6] - 北京拟在700-800公里晨昏轨道建设超过千兆瓦功率的太空数据中心系统,分三阶段实施:2025-2027年突破关键技术,2028-2030年建设二期星座,2031-2035年建成大规模太空数据中心[10] 企业战略调整与并购 - 惠普计划到2028财年全球裁员4000至6000人(约占员工总数10%),承担约6.5亿美元重组费用,其中2026财年约占2.5亿美元[3] - 字节跳动正与沙特Savvy Games Group谈判出售沐瞳科技,交易结果尚存不确定性[5] - 海昌新材拟以2.35亿元现金收购信为通讯51%股权,交易完成后信为通讯将纳入合并报表范围[15] 新产品发布与商业化 - 阿里旗下夸克AI眼镜发布,搭载阿里千问,采用高通AR1+恒玄BES2800双芯设计,S1系列最低价3799元,G1系列最低价1899元[4] - 国家发改委表示人形机器人产业规模以超50%增速发展,目前中国有超过150家人形机器人企业,半数以上为初创或跨行入局[7] 资本市场动态 - 沐曦股份拟科创板IPO发行4010万股(占发行后总股本10.02%),拟募集资金39.04亿元,申购日为12月5日[13] - 摩尔线程IPO网上投资者放弃认购29302股,金额334.86万元,网下投资者放弃认购数量为0[14] - 无问芯穹完成近5亿元A+轮融资,由珠海科技集团、孚腾资本领投,多家老股东跟投[16] 行业合作与纠纷 - 冰川网络拟与关联方成都时间赛跑签署《海外独家代理协议》,代理《魔法战争》海外运营[9] - 东芯股份公告上海砺算与某国内领先云计算服务商签署战略合作框架协议,涉及国产云桌面、AIPC等领域合作,尚未签署具体订单[12] - 台积电指控前高管罗唯仁向英特尔泄露商业秘密,英特尔否认相关指控[11] ETF市场表现 - 游戏ETF(159869)近五日上涨4.31%,市盈率36.47倍,份额减少5200万份,净申赎-7478.9万元[18] - 云计算50ETF(516630)近五日上涨1.30%,市盈率94.17倍,份额减少1100万份,净申赎-1715.4万元[18] - 食品饮料ETF(515170)近五日下跌1.37%,市盈率20.73倍,份额减少300万份,净申赎-171.9万元[18] - 科创50ETF(588000)近五日下跌1.21%,市盈率147.81倍,份额减少11.2亿份,净申赎-15.4亿元[18]
GPT-5危了,DeepSeek开源世界首个奥数金牌AI,正面硬刚谷歌
36氪· 2025-11-28 09:55
模型发布与核心成就 - DeepSeek发布开源数学大模型DeepSeekMath-V2,该模型是首款开源的IMO金牌水平模型[1] - 模型在IMO 2025中破解5题(共6题),达到金牌水平[3] - 在CMO 2024(中国数学奥林匹克)中达到金牌水平[3] - 在Putnam 2024中得分118分(接近满分120分),超越人类参赛者最高分90分[3] 核心技术突破:自验证 - 模型核心突破为自验证技术,通过自我反思提升证明能力[12] - 采用三位一体系统:证明生成器负责解题并诚实自我评价,证明验证器专门挑刺打分,元验证器检查验证器判断准确性[15][16] - 元验证器使验证器输出分析的平均质量分数从0.85提升到0.96,同时保持打分准确率[18] - 在最后两轮训练迭代中,全自动标注流水线完全替代人工标注,且自动生成标签与人类专家判断高度一致[19] 性能基准测试表现 - 在IMO-ProofBench中展现出强大定理证明能力,IMO 2025解题正确率达83.3%[3][4] - CMO 2024解题正确率达73.8%,Putnam 2024正确率达98.3%[4] - 在ProofBench-Basic上实力碾压谷歌金牌模型Gemini Deep Think,在ProofBench-Advanced上直追谷歌[5] 与行业领先模型对比 - 在内部测试集CNML上,DeepSeekMath-V2的One-Shot能力展现出统治级实力,全方位碾压GPT-5和Gemini[26][28] - 在允许自我验证的连续修正实验中,模型在代数、几何、数论与组合等领域均领先于GPT-5和Gemini,几何得分几乎是Gemini 2.5-Pro的三倍[29] - 模型具备高度自知之明,从自己生成的32个解法中挑选最佳答案时,评分准确度极高,得分跃升至0.42[31] 技术实现与进化特征 - 采用高算力搜索策略,对每道题初始生成64个候选证明,并为每个证明生成64个独立验证分析,只有通过所有验证的证明才被视为完全可信[32][33][34] - 模型进化特征显著,初始状态平均得分为0.15,经过8次自我修正后,证明质量分数飙升到0.27[38] - 实验证实LLM可以被训练成可靠的数学验证者,模型能准确找出未解题目证明中的漏洞,并通过所有考验的解法则真实可信[35]
第1个获得数学奥赛金牌的开源模型!DeepSeek新模型获网友盛赞:公开技术文件,了不起!
华尔街见闻· 2025-11-28 08:46
核心观点 - DeepSeek发布的开源数学模型DeepSeekMath-V2在复杂数学推理能力上取得重大突破,达到国际数学奥林匹克竞赛(IMO 2025)金牌水平,成为首个实现此成就的开源模型[1] - 该模型性能直接对标谷歌DeepMind的Gemini高级版本和OpenAI的实验性推理模型,标志着开源人工智能已具备与顶级闭源实验室同场竞技的实力[1] - 模型采用创新的自我验证训练框架,通过验证器评估证明过程质量而非仅关注最终答案,解决了AI模型缺乏严谨推理过程的问题[2][11] - 模型权重根据Apache 2.0许可证公开发布,可供公众自由下载、微调和优化,被视为人工智能民主化的重要一步[1][4] 技术成就 - 在模拟的2025年国际数学奥林匹克竞赛(IMO)中解决了6个问题中的5个,达到金牌水平,630名人类参赛者中仅有72人获得金牌[1][3] - 在中国数学奥林匹克(CMO)竞赛中达到金牌水平[3] - 在面向大学本科生的普特南数学竞赛(Putnam 2024)中,12道题完全解决了11道,另一道题仅有微小错误,最终得分118/120,超过人类参赛者90分的最高分记录[3] - 与谷歌DeepMind的Gemini高级版本和OpenAI的实验性推理模型表现相当,两者也解决了IMO 2025的5个问题并达到金牌标准[1] 技术创新 - 采用自我验证训练框架,训练专门的"验证器"评估证明过程质量,而非仅判断最终答案对错[2][11] - 验证器作为奖励模型引导独立的"证明生成器",只有当生成器成功识别并修复自身证明错误时才获得奖励[11] - 通过增加计算量和自动标记难以验证的证明来提升验证难度,防止模型过度拟合自身检查机制[2][12] - 实现验证-生成闭环和元验证机制,支持全自动化数据标注和持续性能优化[12] 开源意义 - 模型权重在Hugging Face上根据Apache 2.0许可证公开发布,允许研究人员和开发者自由下载、探索、微调和优化[1][4][7] - Hugging Face联合创始人盛赞此为"人工智能和知识民主化的最佳体现",用户可不受限制地运行在自有硬件上[4][5] - 证明开源社区有能力在尖端AI研究领域追赶甚至比肩顶级闭源实验室[2] - 可能引发市场对开源模型是否会侵蚀闭源产品商业护城河的讨论[2] 行业影响 - 标志着开源人工智能在复杂推理能力上的一次重大突破[1] - 将DeepSeek推向与OpenAI和谷歌等科技巨头同场竞技的舞台[1] - 展示了自驱动学习系统在解决复杂数学推理任务上的可行性[12] - 对于没有已知解决方案的开放性问题,自我验证在扩展测试时计算方面尤为重要[11]
DeepSeek上新,“奥数金牌水平”
第一财经· 2025-11-28 08:40
模型发布与性能表现 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在IMO-ProofBench基准测试中,模型在IMO 2025题目上取得83.3%的成绩,在CMO 2024上取得73.8%的成绩,在Putnam 2024上取得98.3%的成绩[4] - 在Basic基准上,模型取得近99%的高分,远高于第二名谷歌Gemini DeepThink的89%;在更难的Advanced子集上,模型得分为61.9%,略低于Gemini DeepThink的65.7%[5] 技术创新与研究方向 - 模型从结果导向转向过程导向,通过自我验证方法教会AI像数学家一样严谨审查证明过程,不依赖大量数学题答案数据[8] - 该技术突破当前AI数学推理的研究局限,即正确最终答案不能保证推理过程正确的问题,展示了强大的定理证明能力[8] - 公司在技术论文中指出,可自我验证的数学推理是可行研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外市场反应积极,有评论称"鲸鱼终于回来了",并认为公司以10个百分点优势击败谷歌IMO Gold获奖模型超出预期[9] - 行业期待公司的下一步动作,特别是在头部厂商如OpenAI、xAI、谷歌相继发布新模型后,市场关注公司旗舰模型的更新计划[10]
DeepSeek上新!首个奥数金牌水平的模型来了
第一财经· 2025-11-28 08:22
模型发布与核心成就 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[1] - 模型在IMO-ProofBench基准及近期数学竞赛中表现出色,部分性能优于谷歌旗下的Gemini DeepThink模型[1] - 模型在Basic基准上取得近99%的高分,远高于第二名Gemini Deep Think (IMO Gold)的89%分数[5] 具体性能表现 - 在IMO 2025的P1至P5问题上取得83.3%的成绩[4] - 在CMO 2024的P1、P2、P4、P5、P6问题上取得73.8%的成绩[4] - 在Putnam 2024的A1至B4、B5、B6问题上取得98.3%的成绩[4] - 在更难的Advanced子集上得分为61.9%,略低于Gemini Deep Think (IMO Gold)的65.7%[5] - 在Putnam 2024上通过扩展测试计算实现118/120接近满分的成绩[8] 技术创新与研究方向 - 模型从结果导向转向过程导向,展示了强大的定理证明能力,不依赖大量数学题答案数据[8] - 核心创新在于教会AI像数学家一样严谨地审查证明过程,实现自我验证,从而在没有人类干预下提升解决高难度数学证明题的能力[8] - 公司提出自我验证对于扩展测试时间计算尤为重要,特别是针对没有已知解决方案的开放问题[8] - 可自我验证的数学推理被证明是可行的研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外反应积极,有观点认为公司以10个百分点的优势击败谷歌的IMO Gold获奖模型DeepThink超出预期[9] - 行业期待公司的旗舰模型更新,市场关注"鲸鱼"的下一个动作[10] - 在OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列后,行业关注公司的下一步动作[10]
DeepSeek强势回归,开源IMO金牌级数学模型
36氪· 2025-11-28 07:34
模型发布与性能突破 - 公司发布新模型DeepSeek-Math-V2,基于DeepSeek-V3.2-Exp-Base开发 [1][2] - 模型性能优于Gemini DeepThink,达到国际数学奥林匹克竞赛金牌水平 [3] - 在IMO 2025、CMO 2024和Putnam 2024等竞赛中表现优异,其中Putnam 2024接近满分达到118/120 [16][17] 技术方法与创新 - 研究核心从“结果导向”转向“过程导向”,不依赖最终答案正确性作为唯一奖励 [5][16] - 提出可自我验证的数学推理框架,由验证器、元验证和生成器三个关键角色组成系统 [7][8][9][11] - 实现“学生-老师-督导”的类比机制:验证器作为“老师”评估证明过程,元验证作为“督导”检查评估合理性,生成器作为“学生”进行自我验证 [7][8][9][11] - 引入诚实奖励机制,对模型诚实指出自身错误的行为给予奖励,对盲目自信行为进行惩罚 [11][15] 系统运作与能力提升 - 设计自动化闭环流程,通过“海量生成”和“集体投票”方式让系统自我进化 [12][21] - 系统自动筛选难以判卷或难以做对的题目作为新训练数据,实现验证器与生成器的双向协同改进 [7][21] - 该方法大幅减少大模型幻觉问题,提升数学推理的全面性和严谨性 [7][20] 基准测试表现 - 在IMO-ProofBench基准的60道证明题中,Basic子集上达到近99%的高分 [18] - 在更难的Advanced子集上表现略逊于Gemini DeepThink [18] - 上一代模型DeepSeek-Math-7b仅用7B参数量即达到与GPT-4和Gemini-Ultra相当性能 [4]
事关亿万参保人!国常会重磅部署;DeepSeek推出新模型|南财早新闻
21世纪经济报道· 2025-11-28 07:18
今日关注 1、国务院总理李强主持召开国务院常务会议,听取推动高质量发展综合督查情况汇报,部署推进基本 医疗保险省级统筹工作,审议通过《全民阅读促进条例(草案)》,讨论《中华人民共和国注册会计师 法(修正草案)》。会议指出,要协调推进基本医保省级统筹和分级诊疗制度建设,加强基层医疗服务 能力建设。 2、2025第三届新质生产力汽车大会将于11月28日至30日召开。 2、就日本首相高市早苗以"不再提及"具体事例实际"撤回"此前答辩,外交部发言人27日表示,日方妄 想通过"不再提及"淡化、搪塞、掩盖高市早苗严重错误言论,是掩耳盗铃、自说自话,中方绝不接受。 3、国家发改委举行新闻发布会介绍,正推动基础设施REITs扩围至城市更新设施、酒店、体育场馆、 商业办公设施等领域。针对以人形机器人为代表的具身智能产业,发改委称,前沿产业发展需要把握和 平衡"速度"与"泡沫"问题,需要着力防范重复度高的人形机器人产品"扎堆"上市、研发空间被压缩等风 险。 4、市场监管总局开展手机行业反不正当竞争合规指导,部分企业利用技术、数据、平台规则等优势实 施流量劫持、强制跳转、恶意不兼容等不正当竞争行为,损害其他经营者和消费者的合法权益 ...