Workflow
Seek .(SKLTY)
icon
搜索文档
DeepSeek上新,“奥数金牌水平”
第一财经· 2025-11-28 08:40
模型发布与性能表现 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[3] - 在IMO-ProofBench基准测试中,模型在IMO 2025题目上取得83.3%的成绩,在CMO 2024上取得73.8%的成绩,在Putnam 2024上取得98.3%的成绩[4] - 在Basic基准上,模型取得近99%的高分,远高于第二名谷歌Gemini DeepThink的89%;在更难的Advanced子集上,模型得分为61.9%,略低于Gemini DeepThink的65.7%[5] 技术创新与研究方向 - 模型从结果导向转向过程导向,通过自我验证方法教会AI像数学家一样严谨审查证明过程,不依赖大量数学题答案数据[8] - 该技术突破当前AI数学推理的研究局限,即正确最终答案不能保证推理过程正确的问题,展示了强大的定理证明能力[8] - 公司在技术论文中指出,可自我验证的数学推理是可行研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外市场反应积极,有评论称"鲸鱼终于回来了",并认为公司以10个百分点优势击败谷歌IMO Gold获奖模型超出预期[9] - 行业期待公司的下一步动作,特别是在头部厂商如OpenAI、xAI、谷歌相继发布新模型后,市场关注公司旗舰模型的更新计划[10]
DeepSeek上新!首个奥数金牌水平的模型来了
第一财经· 2025-11-28 08:22
模型发布与核心成就 - 公司于11月27日在Hugging Face上开源数学模型DeepSeek-Math-V2,该模型是行业首个达到国际奥林匹克数学竞赛金牌水平且开源的模型[1] - 模型在IMO-ProofBench基准及近期数学竞赛中表现出色,部分性能优于谷歌旗下的Gemini DeepThink模型[1] - 模型在Basic基准上取得近99%的高分,远高于第二名Gemini Deep Think (IMO Gold)的89%分数[5] 具体性能表现 - 在IMO 2025的P1至P5问题上取得83.3%的成绩[4] - 在CMO 2024的P1、P2、P4、P5、P6问题上取得73.8%的成绩[4] - 在Putnam 2024的A1至B4、B5、B6问题上取得98.3%的成绩[4] - 在更难的Advanced子集上得分为61.9%,略低于Gemini Deep Think (IMO Gold)的65.7%[5] - 在Putnam 2024上通过扩展测试计算实现118/120接近满分的成绩[8] 技术创新与研究方向 - 模型从结果导向转向过程导向,展示了强大的定理证明能力,不依赖大量数学题答案数据[8] - 核心创新在于教会AI像数学家一样严谨地审查证明过程,实现自我验证,从而在没有人类干预下提升解决高难度数学证明题的能力[8] - 公司提出自我验证对于扩展测试时间计算尤为重要,特别是针对没有已知解决方案的开放问题[8] - 可自我验证的数学推理被证明是可行的研究方向,可能有助于开发更强大的数学AI系统[8] 行业影响与市场反应 - 海外反应积极,有观点认为公司以10个百分点的优势击败谷歌的IMO Gold获奖模型DeepThink超出预期[9] - 行业期待公司的旗舰模型更新,市场关注"鲸鱼"的下一个动作[10] - 在OpenAI发布GPT-5.1、xAI发布Grok 4.1、谷歌发布Gemini 3系列后,行业关注公司的下一步动作[10]
DeepSeek强势回归,开源IMO金牌级数学模型
36氪· 2025-11-28 07:34
模型发布与性能突破 - 公司发布新模型DeepSeek-Math-V2,基于DeepSeek-V3.2-Exp-Base开发 [1][2] - 模型性能优于Gemini DeepThink,达到国际数学奥林匹克竞赛金牌水平 [3] - 在IMO 2025、CMO 2024和Putnam 2024等竞赛中表现优异,其中Putnam 2024接近满分达到118/120 [16][17] 技术方法与创新 - 研究核心从“结果导向”转向“过程导向”,不依赖最终答案正确性作为唯一奖励 [5][16] - 提出可自我验证的数学推理框架,由验证器、元验证和生成器三个关键角色组成系统 [7][8][9][11] - 实现“学生-老师-督导”的类比机制:验证器作为“老师”评估证明过程,元验证作为“督导”检查评估合理性,生成器作为“学生”进行自我验证 [7][8][9][11] - 引入诚实奖励机制,对模型诚实指出自身错误的行为给予奖励,对盲目自信行为进行惩罚 [11][15] 系统运作与能力提升 - 设计自动化闭环流程,通过“海量生成”和“集体投票”方式让系统自我进化 [12][21] - 系统自动筛选难以判卷或难以做对的题目作为新训练数据,实现验证器与生成器的双向协同改进 [7][21] - 该方法大幅减少大模型幻觉问题,提升数学推理的全面性和严谨性 [7][20] 基准测试表现 - 在IMO-ProofBench基准的60道证明题中,Basic子集上达到近99%的高分 [18] - 在更难的Advanced子集上表现略逊于Gemini DeepThink [18] - 上一代模型DeepSeek-Math-7b仅用7B参数量即达到与GPT-4和Gemini-Ultra相当性能 [4]
事关亿万参保人!国常会重磅部署;DeepSeek推出新模型|南财早新闻
21世纪经济报道· 2025-11-28 07:18
宏观经济政策与数据 - 国务院常务会议部署推进基本医疗保险省级统筹工作,并审议通过《全民阅读促进条例(草案)》和讨论《注册会计师法(修正草案)》[1] - 国家发改委正推动基础设施REITs扩围至城市更新设施、酒店、体育场馆、商业办公设施等领域[5] - 1—10月份全国规模以上工业企业利润同比增长1.9%,累计增速自8月份以来连续三个月保持增长[6] - 国家发改委同有关部门研究制定价格无序竞争成本认定标准等相关工作[6] 行业监管与产业发展 - 发改委针对人形机器人产业表示需平衡“速度”与“泡沫”,防范产品“扎堆”上市及研发空间被压缩等风险[5] - 市场监管总局开展手机行业反不正当竞争合规指导,指出部分企业存在流量劫持、强制跳转、恶意不兼容等行为[5] - 2025第三届新质生产力汽车大会将于11月28日至30日召开[2] - 2025软件技术大会将于11月28日在北京举行[3] 金融市场与投资动态 - 首批7只双创人工智能ETF将于11月28日集体首发[4] - 11月27日A股市场成交额达1.72万亿元,上证指数涨0.29%报3875.26点,商业航天、抗流感概念走强[7] - 10月末私募基金规模达22.05万亿元,较9月末增加1.31万亿元创历史新高,10月新备案私募基金规模670.1亿元[7] - 摩根大通将中国股市投资评级上调至“超配”,认为明年AI应用落地、刺激消费措施及治理改革将形成支撑[7] 重点公司动态 - 万科多只债券跌幅超35%,“21万科02”跌超57%,H股股价创历史新低,A股股价刷新逾11年新低[7] - 娃哈哈集团完成核心人事变更,宗馥莉卸任法定代表人及董事长等职务,由许思敏接任[8] - DeepSeek推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架[8] - 丰田汽车10月全球销量同比增2.1%至92.27万辆创同期新高,美国销量大增26.4%但中国销量下滑6.6%[8] - 阿维塔科技向港交所提交上市申请,上半年营收122.08亿元同比增长98.52%,车辆销售收入114.9亿元[8] - 大悦城地产在上市12年后于11月27日正式从港交所退市[8]
阿维塔“递表”港股IPO;DeepSeek推出新模型丨每经早参
每日经济新闻· 2025-11-28 06:19
宏观经济与政策 - 国务院常务会议部署推进基本医疗保险省级统筹工作并审议通过《全民阅读促进条例(草案)》[5] - 国家发展改革委表示将加大信用修复力度,原则上不再公示轻微失信信息,并简化修复流程[9] - 中国贸促会将于12月初应美国商会邀请组织中国企业家代表团访美,涉及农业食品、机械电子、金融服务等多个领域[9] - 日本政府计划增发约11.7万亿日元(约合5299亿元人民币)国债,为新一轮经济刺激方案提供资金[11] 金融市场与交易 - 受美国感恩节假期影响,美股于11月27日休市,11月28日提前3小时收市[5] - 布伦特1月原油期货收涨0.33%至63.34美元/桶,WTI原油日内涨幅达1.00%至59.23美元/桶[5] - 欧洲主要股指11月27日收盘涨跌不一,德国DAX30指数涨0.31%,英国富时100指数跌0.02%[5] - 11月27日人民币对美元汇率中间价报7.0779,下调17个基点[33] - 首批7只双创人工智能ETF将于11月28日集体首发[3] - 新股百興事容将于科创板上市,发行价格26.68元,动态市盈率47.7倍[35] 地缘政治与国际关系 - 俄罗斯总统普京表示现阶段与乌克兰现领导层谈判无实际意义,并称美方代表团将于下周到访莫斯科[10] - 德国联邦检察院证实一名“北溪”天然气管道爆炸案乌克兰籍嫌疑人被引渡至德国受审[10] - 外交部就日本首相言论表示中方绝不接受日方的自说自话[6] - 商务部部长与德国联邦经济和能源部部长就安世半导体等问题举行视频会谈[6] 科技与人工智能 - DeepSeek推出新型数学推理模型DeepSeekMath-V2,在IMO 2025和CMO 2024中均达到金牌水平,Putnam 2024获118/120分[16] - 英国《金融时报》报道中国开源AI模型全球下载量占比达17%,首次超过美国的15.8%[31] 汽车与出行产业 - 2025第三届新质生产力汽车大会将于11月28日至30日召开[3] - 阿维塔科技申报港股IPO,成为首家向港交所提交上市申请的央企旗下新能源车企,当前估值超300亿元[27] - 鸿蒙智行官方发文回应近期遭遇大量网络攻击,表示已收集证据并将追究责任[25] 消费电子与半导体 - 华为Mate80及Mate80Pro系列机型于11月28日正式开售[3] - 商务部部长在与德国部长的会谈中表示,安世半导体问题全球供应链仍脆弱,荷方应拿出诚意提出建设性方案[6] 企业动态与公司治理 - 宗馥莉卸任杭州娃哈哈集团有限公司法定代表人、董事长、总经理职务,目前仍持有公司29.40%股权[21] - 大悦城地产完成私有化并于11月27日从港交所退市,私有化交易总代价约29.32亿港元[23] - 安踏体育再次回应竞购彪马的市场传闻,表示“不对市场传闻发表评论”[20] - 摩尔线程公告网上发行最终中签率为0.03635054%,网上投资者放弃认购29302股,金额334.86万元[18][19] 企业社会责任 - 香港大埔火灾已致83人遇难,香港特区政府宣布向灾民派发每户1万港元应急补助金并投入3亿港元成立援助基金[6] - 火灾后多家企业及组织宣布捐款驰援香港,合计捐款金额超6亿港元[12][13] - 马云公益基金会捐赠3000万港元,蚂蚁集团及AlipayHK首批捐赠1000万港元,李嘉诚基金会拨出3000万港元紧急援助基金及5000万港元后续支援计划[13] - 字节跳动捐赠1000万港元,腾讯基金会累计捐款3000万港元,阿里巴巴集团启动首批捐款2000万港元[13][14] - 百度集团捐赠1000万港元,农夫山泉捐赠1000万港元现金及500万港元物资,香港小米基金会捐赠1000万港元[14][15] 产业投资与并购 - 衮矿能源拟3.45亿元收购高端支架公司[37] - 银轮股份拟以1.33亿元投资深蓝股份[37] - 浩瀚深度拟以7068.86万元收购国瑞数彻[38] - 海昌新材拟2.35亿元收购信为通讯51%股权[38] - 华丰科技拟调减定增募资金额[38] - 华电辽能拟1亿元增资全资子公司[39] - 东芯股份对外投资企业上海砺算与算力服务商签署战略合作框架协议[39] 网络安全与风险 - 日本朝日集团因遭网络攻击导致系统故障,约191.4万条客户及员工个人信息可能泄露[29]
“北溪”爆炸案一嫌疑人至德国受审;香港大埔火灾致83人遇难;外交部:中方绝不接受日方的自说自话;阿维塔“递表”港股IPO;DeepSeek推出新模型丨每经早参
每日经济新闻· 2025-11-28 06:00
国务院常务会议动态 - 会议听取推动高质量发展综合督查情况汇报,部署推进基本医疗保险省级统筹工作,审议通过《全民阅读促进条例(草案)》,讨论《中华人民共和国注册会计师法(修正草案)》[4] 国际原油及股市表现 - 布伦特1月原油期货收涨0.21美元,涨幅0.33%,报63.34美元/桶 WTI原油日内涨幅达1.00%,报59.23美元/桶[5] - 欧洲主要股指收盘涨跌不一,德国DAX30指数涨0.31%,英国富时100指数跌0.02%,法国CAC40指数涨0.04%,欧洲斯托克50指数跌0.06%[5] 企业并购与战略动向 - 安踏体育对市场关于其考虑竞购彪马的传闻表示“不对市场传闻发表评论”[21] - 杭州娃哈哈集团有限公司发生工商变更,宗馥莉卸任法定代表人、董事长、总经理职务,由许思敏接任,宗馥莉仍持有公司29.40%股权[22] 资本市场与IPO - 大悦城地产私有化计划生效,正式从港交所退市,私有化交易总代价约29.32亿港元[24] - 阿维塔科技(重庆)股份有限公司申报港股IPO,成为首家向港交所提交上市申请的央企旗下新能源车企,当前估值超300亿元[28] - 摩尔线程新股发行网上投资者放弃认购数量29302股,放弃认购金额334.86万元,由保荐人包销[20] 科技创新与AI发展 - DeepSeek推出新型数学推理模型DeepSeekMath-V2,在IMO 2025和CMO 2024中均达到金牌水平,Putnam 2024获118/120分,模型代码与权重已开源[18] - 研究显示中国科研团队开发的开源AI模型在开源模型全球下载总量中占比上升至17%,超过美国科技公司的15.8%[33] 企业经营与项目动态 - 市场监管总局召开企业公平竞争座谈会,与三星、宝马、强生等外资企业交流,强调将加强重点领域反垄断执法[8] - 中国建筑获得三项重大项目,合计金额106.7亿元[38] - 中铝国际控股子公司联合体中标29.09亿元升级改造项目[38] - 安徽建工联合中标两个项目,中标总价为26.03亿元[38] 行业合作与交流 - 应美国商会邀请,中国贸促会将于12月初组织中国企业家代表团访美,随团企业涉及农业食品、机械电子、金融服务等多个领域[9] - 商务部部长就安世半导体等问题与德国联邦经济和能源部部长举行视频会谈,双方一致认为企业是解决问题的主体[6] 公司增持与减持 - 迈瑞医疗董事长李西廷拟增持2亿元公司股份[38] - 迈得医疗董事长提议以2000万元至4000万元回购公司股份[38] - 完美世界实际控制人拟减持不超过1.70%公司股份[38] - 孚能科技股东上杭兴源拟减持不超1.6816%股份[38]
新突破!DeepSeek推出新模型
上海证券报· 2025-11-28 00:18
模型性能与成就 - 模型基于DeepSeek-V3.2-Exp-Base构建,在IMO 2025和CMO 2024中均达到金牌水平,并在Putnam 2024竞赛中取得118/120(98.3%)的优异成绩 [2] - 在IMO 2025竞赛中解决了P1至P5问题,得分率为83.3%;在CMO 2024竞赛中解决了P1、P2、P4、P5、P6问题,得分率为73.8% [3] - 在自主构建的91个CNML级别问题测试中,模型在代数、几何、数论、组合学和不等式等所有类别均超越了GPT-5-Thinking-High和Gemini 2.5-Pro的表现 [6] - 在IMO-ProofBench基准测试中,其基础集人工评估结果优于DeepMind的DeepThink,在高级集上保持了强劲竞争力并显著超越其他基准模型 [8] 技术架构与创新 - 核心架构构建了自驱动的验证-生成闭环:一个LLM作为“审稿人”担任证明验证器,另一个LLM作为“作者”负责证明生成,两者通过强化学习机制相互协作 [4] - 引入了“元验证”层来有效抑制模型幻觉,通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化模型性能 [2][4] - 该成果验证了自验证推理路径的可行性,为构建可靠数学智能系统提供新方向,新模型代码与权重已开源发布于Hugging Face及GitHub平台 [4][11] 行业意义与发展方向 - 大型语言模型在数学推理方面取得显著进展,但正确的答案并不能保证正确的推理,许多数学任务如定理证明需要严格的逐步推导而非数值答案 [4] - 自我验证的数学推理被证明是一条可行的研究方向,有助于开发功能更为强大的数学人工智能系统 [4][11] - 团队认为有必要验证数学推理的全面性和严谨性,以突破深度推理的极限 [4]
重磅!DeepSeek推出DeepSeekMath‑V2模型
每日经济新闻· 2025-11-27 22:46
模型发布与技术亮点 - 11月27日,DeepSeek在HuggingFace平台推出新型数学推理模型DeepSeekMath-V2 [1] - 模型采用可自我验证的训练框架,基于DeepSeek-V3.2-Exp-Base构建 [1] - 通过LLM验证器自动审查生成的数学证明,并利用高难度样本持续优化性能 [1] - 团队表示该成果验证了自验证推理路径的可行性,为构建可靠数学智能系统提供新方向 [1] 性能表现与成就 - 模型在IMO 2025和CMO 2024数学竞赛中均达到金牌水平 [1] - 在Putnam 2024数学竞赛中获得118/120分的高分 [1] 模型开源与获取 - 模型代码与权重已完全开源 [1] - 开源内容发布于Hugging Face及GitHub平台 [1]
DeepSeek推出DeepSeekMath V2 模型
每日经济新闻· 2025-11-27 21:50
公司技术发布 - 推出新型数学推理模型DeepSeekMath-V2,采用可自我验证的训练框架[1] - 模型基于DeepSeek-V3.2-Exp-Base构建,通过LLM验证器自动审查生成的数学证明[1] - 利用高难度样本持续优化性能[1] 模型性能表现 - 在IMO2025和CMO2024数学竞赛中均达到金牌水平[1] - 在Putnam2024数学竞赛中获得118/120分[1] - 团队表示该成果验证了自验证推理路径的可行性[1] 技术开源与发布 - 模型代码与权重已开源[1] - 发布于Hugging Face及GitHub平台[1] - 为构建可靠数学智能系统提供新方向[1]
DeepSeek推出DeepSeekMath V2模型
证券时报网· 2025-11-27 21:50
公司产品发布 - DeepSeek于11月27日晚间推出新型数学推理模型DeepSeekMath-V2 [1] - 该模型采用可自我验证的训练框架 [1] - 模型基于DeepSeek-V3.2-Exp-Base构建 [1] 技术创新与优化 - 通过LLM验证器自动审查生成的数学证明 [1] - 利用高难度样本持续优化模型性能 [1] - 训练框架专注于提升数学推理能力 [1]