Workflow
DeepSeek
icon
搜索文档
DeepSeek新数学模型刷爆记录!7B小模型自主发现671B模型不会的新技能
量子位· 2025-05-01 11:53
模型性能突破 - DeepSeek-Prover-V2在普特南测试中刷新记录至49道题解答,远超当前第一名Kimi-Prover的10道题表现[2][3] - 在miniF2F测试中,671B参数的Prover-V2通过率达到88.9%,7B参数版本在非CoT模式下解决13个671B模型未能处理的问题[36][9] - 7B小模型展现出独特推理能力,在处理有限基数问题时使用Cardinal.toNat等671B模型未掌握的技巧[9][10] 技术架构创新 - 采用"形式化和非形式化数学证明统一模型"设计,整合DeepSeek-V3的高上下文窗口和自然语言推理能力[15] - 引入"子目标分解的强化学习"方法,通过递归证明搜索合成冷启动数据,使用70亿参数模型处理子目标证明[19][21] - 建立两阶段训练体系:第一阶段生成非CoT数据,第二阶段采用高精度CoT模式强化复杂问题推理能力[28][29] 训练方法论 - 采用GRPO算法进行强化学习,通过二元奖励机制(正确证明得1分)优化策略,避免使用单独裁判模型[32][33] - 监督微调数据包含两个来源:专家迭代收集的非CoT形式化验证数据,以及冷启动CoT结构化证明路径数据[31] - 对7B模型执行与671B相同的强化学习阶段,使其上下文窗口扩展至32768个token并融入非CoT证明数据[35] 行业影响与生态建设 - 推出ProverBench基准数据集,包含325个形式化数学问题(15道AIME竞赛题+310道教科书问题)[38][39] - GitHub仓库12小时内获350+星标,引发X/Twitter和Hugging Face社区热烈讨论,包括Kimina-Prover团队祝贺[51][52][59] - 普林斯顿教授评价miniF2F测试最后10%-20%问题的攻克标志着"能力重大飞跃",显示行业竞争白热化[57] 团队与研发背景 - 18人团队包含DeepSeek-V3/R1/Prover系列前作核心成员,新增清华背景研究员Shirong Ma等资深成员[42][44][45] - 采用Fire-Flyer AI-HPC架构降低训练成本,但未披露具体基础设施优化细节[48][49] - 研究延续DeepSeek-Prover系列技术路线,从V1的合成数据微调演进至V2的子目标分解强化学习[12][13][14]
DeepSeek开源Prover-V2强推理模型,网友:奥数从没这么简单过
机器之心· 2025-05-01 10:11
DeepSeek-Prover-V2发布 - 公司发布DeepSeek-Prover-V2模型,包含7B和671B两个参数版本,专注于形式化定理证明,专为数学AI编程语言Lean 4打造 [3] - DeepSeek-Prover-V2-671B基于DeepSeek-V3-Base训练,7B版本基于DeepSeek-Prover-V1.5-Base构建,支持32K tokens上下文长度 [3] - 模型在MiniF2F测试中达到88.9%通过率,解决PutnamBench数据集中658道题中的49道,性能达到业内最佳 [15] 技术实现 - 采用递归定理证明流程,使用DeepSeek-V3分解复杂问题为子目标并生成形式化推理步骤,融合非形式化与形式化数学推理 [9][4] - 通过7B模型完成子目标证明以降低计算开销,整合子目标证明与DeepSeek-V3生成的思维链构建冷启动数据 [11] - 采用两阶段训练:非思维链(non-CoT)模式优化快速生成Lean代码,思维链(CoT)模式强调透明推理步骤 [17] 性能与基准测试 - DeepSeek-Prover-V2-671B在ProofNet-test上通过率37.1%(1024样本),PutnamBench解决49/658题,显著优于Goedel-Prover-SFT和STP等竞品 [23] - 7B版本在ProofNet-test通过率29.6%(1024样本),PutnamBench解决11/658题,展示小模型的高效性能 [23] - 发布ProverBench基准数据集,包含325道题目,涵盖AIME竞赛题及本科数学内容,支持高中至本科难度评估 [25][26] 行业影响 - 模型开源并公开技术细节,HuggingFace平台提供7B和671B版本下载链接,推动数学AI领域发展 [6][16] - 用户实测显示模型效果优于o4-mini和Grok-3,尤其在数学奥林匹克问题解决中表现突出 [31] - 子目标分解与推理融合的设计被类比为初级工程师问题解决技巧,潜在适用于代码生成等场景 [32]
刚刚!DeepSeek-Prover-V2-671B 发布,网友:DS 是假期终结者
程序员的那些事· 2025-05-01 10:04
DeepSeek-Prover-V2-671B发布 - 公司于4月30日正式推出DeepSeek-Prover-V2-671B模型,标志着AI数学推理能力进入新阶段 [2][4] - 该模型基于6710亿参数混合专家(MoE)架构,专为Lean 4证明辅助框架优化 [4] 技术架构特性 - 采用动态参数激活机制,单次推理仅调用约370亿参数,平衡性能与计算效率 [4][6] - 上下文窗口约128k tokens,支持高阶数学证明中的复杂长逻辑链处理 [6][7] - 可能延续多头潜在注意力机制(MLA),显著降低KV缓存需求并提升吞吐量 [7] 核心突破价值 - 实现形式化数学的"GPT-4级"突破,处理复杂数学证明能力显著提升 [7] - MoE架构相比稠密模型大幅降低内存需求并提高运算速度 [7] - 开放商用许可,预计在Hugging Face开源权重,支持学术与工业应用 [7] 应用场景拓展 - 形式化验证:应用于密码学安全证明、芯片设计验证等自动化流程 [7] - 数学研究加速:辅助定理形式化、新猜想探索及奥赛级难题证明 [7] - 智能教育工具:构建可验证步骤的交互式数学教学系统 [7] - 关键系统安全:通过Lean集成验证核心代码逻辑的正确性 [7] 基础训练数据 - 基础预训练可能超过14.8万亿tokens(基于V3基础),提供广泛知识储备 [6]
1月股市涨了:这是川普的股市!4月股市跌了:这是拜登的股市!特朗普执政100天,被痛批失败!沃尔玛低头了,145%关税全扛!
雪球· 2025-05-01 09:32
美股市场波动 - 道指一度暴跌近800点 纳指一度跌近3% 随后因贸易谈判希望跌幅收窄 [1] - 美国第一季度GDP意外萎缩0.3% 远低于市场预期的增长0.4% 引发市场剧烈震荡 [3] - 贸易谈判消息传出后 美股逐步抹平多数跌幅 道指上演800点蹦极跳 [5] 科技股表现 - 超微电脑(SMCI)股价暴跌11.50% 总市值190.14亿美元 [7] - 科技七姐妹中 微软和Meta一季度业绩优于预期 Meta大幅上调今年资本支出指引 股价盘后拉升 [8] - 特斯拉早盘一度跌超7% 最终收跌3.4% 亚马逊早盘跌超4% 最终收跌1.6% 英伟达盘初跌超4.5% 最终收跌0.09% [8] 经济数据与政策影响 - 美国GDP下降主因企业抢跑式进口激增36% 贸易逆差扩大 政府支出减少 尤其是国防开支骤降12% [11] - 消费支出仅增长1.8% 为自2023年中以来最弱 [11] - 摩根大通和摩根士丹利认为GDP下滑反映前期进口激增 不代表经济基本面彻底转弱 [11] - 悲观观点认为若关税政策不调整 美国经济可能陷入停滞 7月实施新一轮对等关税可能导致衰退 [12] 零售业与供应链 - 亚马逊在商品页面直接展示关税战前后成本对比 被白宫批评为敌意且具有政治意味的举动 [18] - 美国电商亚马逊平台近1000种商品平均涨价幅度接近30% [18] - 沃尔玛、塔吉特等企业因供应链断裂 约40%基础商品面临断供风险 中国供应商利润压缩超40% 集体暂停对美发货 [18] - 沃尔玛、塔吉特和家得宝等零售公司已致函中国供应商 通知恢复货物发送 自行承担关税部分 [19] - 沃尔玛此前要求中国供应商在每轮关税中降价10% 导致中国企业面临巨大亏损 中国商务部紧急约谈沃尔玛 [20] 黄金市场 - 黄金在美国经济数据公布后收窄多数跌幅 今年内保持月度累涨 [9]
创始人“跑路”?极石汽车回应:消息不实;美团免除骑手外卖柜使用费;微软30%代码由AI编写丨邦早报
创业邦· 2025-05-01 09:03
苹果公司重组 - 苹果正在对全球事务和音乐部门进行管理层改组 全球事务重组涉及欧洲、印度、中国和亚洲其他地区政府团队的管理调整 [3] - Apple Music将采用全新领导结构 两名联席主管向高级副总裁奥利弗·舒瑟汇报工作 [3] OpenAI更新 - OpenAI已回滚GPT-4o的最新更新 免费版回滚100%完成 付费版完成后将再次更新 [4] - GPT-4o的个性被用户反馈过于谄媚 OpenAI将在未来几天分享更多修复信息 [4] - OpenAI首席执行官表示已改善GPT-4o的智力和个性 [4] 汽车行业动态 - 东风日产回应N7被指疑似奕派007"换壳车" 称N7为全栈自研天演架构首款车型 底盘悬架与核心部件设计方案完全不同 [4] - 沃尔沃汽车宣布全球裁员计划 作为180亿瑞典克朗降本增效计划的一部分 [11] - 极石汽车澄清创始人"跑路"传闻 称公司运营正常且有充足资金支持 [13] - 奥迪Q4 e-tron Sportback改款路测图曝光 采用全新前脸设计和多段式DRL技术 [20] - 阿斯顿·马丁发布新款DBX S 最大功率717马力 成为动力最强非电气化SUV [22][23] 科技与AI进展 - 微软CEO表示公司30%代码由AI生成 比例持续攀升 [11] - Meta CEO预测未来一年内半数开发工作将由AI完成 [11] - DeepSeek发布Prover-V2模型 参数量达6710亿 支持超长上下文处理 [20] - 中国科学院研发成功脑机接口柔性微电极植入机器人CyberSense [25] 零售与消费 - 星巴克宣布将增加门店员工数量 减少自动化设备 计划年底前在美国3000家门店增加人手 [10] - 迪卡侬考虑出售中国业务30%股权 潜在估值约10亿美元 [13] - 小龙虾价格大幅下跌 中规格产品从40元/斤降至17元/斤 跌幅超50% [19] 出行与配送 - 美团宣布免除骑手外卖柜使用费 权益覆盖所有美团外卖柜点位 [8] - 极越CEO夏一平新增两条限制高消费信息 因金融借款合同纠纷 [15] 投融资与上市 - 宁德时代计划下月在港上市 或成四年来最大规模新股发行 预计募资至少50亿美元 [20] - 长城重工完成5.2亿元A轮融资 由招商局集团及山东能源集团下属产业资本领投 [20] - 时空智子完成数千万元A轮融资 投资方为同创伟业 [20] - 无锡北微传感完成数千万元B+轮融资 [20] 娱乐与游戏 - 艺电计划裁员数百人并取消开发《Titanfall》游戏 裁员人数约300至400人 [17] 制造业与供应链 - 三星考虑将手机生产线转移至印度 以应对美国对越南46%的高关税 [20] - 部分义乌玩具商已接到沃尔玛、塔吉特出货通知 新关税成本由美方客户承担 [20] 市场数据 - 4月1-27日全国乘用车市场零售139.1万辆 同比增长10% 新能源车零售72.8万辆 同比增长24% [29] - 2025五一档新片总票房突破8000万元 《水饺皇后》《雷霆特攻队*》《人生开门红》位列前三 [27]
DeepSeek开源新模型,数学推理能力大提升
虎嗅· 2025-05-01 08:48
模型发布与版本 - DeepSeek在Hugging Face正式发布DeepSeek-Prover-V2,同步上线模型卡及示例代码,共推出两个版本:7B和671B [1][4] - DeepSeek-Prover-V2-7B基于上一代V1.5模型,支持最长32K上下文输入 [4] - DeepSeek-Prover-V2-671B在DeepSeek-V3-Base基础上训练,推理性能最强 [4] 训练方法与技术 - 训练核心采用"递归+强化学习"组合,由DeepSeek-V3拆解复杂定理生成子目标和推理思路,再通过GRPO算法从候选方案中学习最优解 [3] - 训练分为两阶段:第一阶段采用"专家迭代"方法,模型通过解决难题反哺自身 [5];第二阶段迁移DeepSeek-V3数学知识并引入形式化数据,构建复杂推理路径 [6] - GRPO强化学习算法引导模型在32个候选证明方案中选择被Lean验证系统判定为正确的答案(奖励1分,否则0分) [8][9] 模型能力与特点 - 671B模型能力被"蒸馏"到7B模型,使小模型在资源有限设备上获得接近大模型的数学推理能力 [10][11] - 提供两种解题风格:快速模式(non-CoT)直接生成精炼答案;逻辑模式(CoT)详细展示推理过程 [12] - DeepSeek-V3负责拆解定理生成推理草图,7B模型完成子证明并拼接完整推理,形成"模糊思考+精确证明"机制 [14][15] 性能评估与数据集 - DeepSeek-Prover-V2-671B在MiniF2F测试中通过率达88.9%,成功解出PutnamBench数据集49道难题 [17] - 推出全新数学形式化数据集ProverBench,包含325道题目,涵盖AIME竞赛题、数论、代数、微积分等10个领域 [18][19] - 在15道AIME竞赛题中,DeepSeek-Prover-V2解出6道,DeepSeek-V3通过多数投票解决8道 [20] 行业趋势与方向 - 大型语言模型在"非正式数学推理"与"正式数学推理"间的表现差距明显缩小,逐步学会写出规范可验证的数学证明 [21][22] - 模型从生成内容迈向生成结构化逻辑,可能最早触碰通用人工智能的底层结构,推理能力成为知识系统边界的关键 [32][33][34] 商业化与部署 - 新模型遵循公开许可证,可通过Hugging Face平台免费下载并支持Transformers接口部署 [23][24] - Novita AI成为首批上线Prover-V2-671B推理服务的第三方提供商 [24]
陆家嘴财经早餐2025年5月1日星期四
Wind万得· 2025-05-01 06:29
// 热点聚焦 // 1、 4月央行开展了1.2万亿元买断式逆回购操作。由于当月有1.7万亿元买断式逆回购到期,因此4月央行买断式逆回购操作缩量5000亿元,为该项政策工 具创立以来首次缩量。由于当月MLF净投放量为5000亿元,因此4月央行中期流动性操作为等量续作,结束了去年10月以来央行持续注入中期流动性的操 作过程。同时,央行连续4个月暂停公开市场国债买卖操作。 分析认为,4月买断式逆回购缩量续作,并不意味着央行正在收紧市场流动性,这很可能意 味着下一步即将实施降准。 2、 《民营经济促进法》出台,自5月20日起施行,是我国首部专门关于民营经济发展的基础性法律。5月起,国内还将有一批新规开始施行。 其中包括: 办理结婚、离婚登记都无需再出示户口本;新建住宅建筑层高不低于3米、四层以上新建住宅要设电梯;消费者自付款之日起七日内有权请求经营者返还 预付款本金;禁止保险公司开发5年期以下的万能险;中瑙(鲁)互免持特定类别护照人员签证等。 3、 美国经济在年初出现自2022年以来的首次萎缩,主要原因是关税实施前进口激增以及消费者支出放缓。 根据政府公布的初步估算, 第一季度经通胀 调整后的美国国内生产总值(GD ...
中国电子:国产开源模型千帆竞发,阿里 Qwen-3、小米 MiMo、DeepSeek Prover 集中发布
海通国际证券· 2025-04-30 23:15
报告行业投资评级 未提及 报告的核心观点 - 阿里 Qwen 当前位列开源大模型排行榜首,凭借领先性能及完善开源策略,未来有望在能力与生态变现方面持续领先,且部署成本显著降低 [2] - 随着国产模型开源增多,未来应用和商业化会面临同质化竞争问题,开源模型将向定制化演进,成熟 Agent 会改写行业格局,是 AI 商业化下个突破口 [5] 根据相关目录分别进行总结 事件 - 2025 年 4 月 28 日,阿里发布新一代 Qwen - 3 系列大语言模型,含多个量级版本 [1] - 2025 年 4 月 30 日,小米发布并开源首个专为推理任务设计的大语言模型 Xiaomi MiMo;DeepSeek 团队在 Hugging Face 平台发布最新大语言模型 DeepSeek - Prover - V2 - 671B [1] 阿里 Qwen - 3 - 具备多尺寸覆盖能力,推出多个参数规模模型,能满足不同场景推理需求 [1] - 性能显著提升,在多项公开评测基准上,相较前代模型准确率提升 10–30% [1] - 引入先进稀疏注意力机制和推理加速技术,相同硬件资源下推理速度提高 20%–40%,增强实用性和部署效率 [1] 小米 Xiaomi MiMo - 70 亿参数规模,在数学推理和代码生成等任务中性能卓越,超越部分更大规模模型 [3] - 采用三阶段逐步提升难度训练方法,总计训练 25T tokens 增强推理能力 [3] - 后训练阶段引入“测试难度驱动奖励”机制,结合“简单数据重采样”策略和“无缝推出系统”,提升强化学习稳定性和训练效率,使强化学习训练速度提升 2.29 倍、验证过程加快 1.96 倍 [3] DeepSeek - Prover - V2 - 671B - 在数学定理证明任务中表现出色,特别是形式化数学证明领域 [4] - 发布展示了 DeepSeek 在大模型领域技术实力,预示其在形式化推理和专业领域应用的战略布局 [4] - 上线可能为即将发布的 DeepSeek - R2 模型做能力验证或预热,显示推动 AI 技术向更深层次发展的决心 [4]
整理:4月30日欧盘美盘重要新闻汇总
快讯· 2025-04-30 23:10
国内政策与监管动态 - 国家召开"十五五"经济社会发展座谈会 强调科学谋划未来战略重点 [1] - 移动互联网未成年人模式正式发布 家长可一键启动所有APP未成年模式 [1] - 民营经济促进法将于5月20日起正式施行 [1] - 七部门联合发布《终端设备直连卫星服务管理规定》规范卫星通信服务 [1] - 中央网信办部署开展"清朗·整治AI技术滥用"专项行动 [1] 经济与市场数据 - 4月制造业PMI为49.0% 较上月下降1.5个百分点 制造业景气水平回落 [1] - 中国市场黄金ETF总持仓创历史新高 [1] - 中国人民银行开展12000亿元买断式逆回购操作 采用固定数量利率招标方式 [1] - 新一轮国内油价调整搁浅 [1] 国际地缘政治与贸易 - 法国财长与贝森特讨论相互实行零关税 对方认为该想法并非不切实际 [2] - 乌克兰可能在周三晚些时候与美国签署矿产协议 但英媒报道签署遇阻 [2] - 俄罗斯军队大幅增加波克罗夫斯克方向战斗行动强度 [2] 全球宏观经济 - 交易员完全定价美联储2025年底前将进行四次25个基点降息 [2] - 美国一季度GDP下降0.3% 为2022年以来首次经济收缩 [2] - 美国ADP就业人数仅增长6.2万 出现断崖式暴跌 [2] 技术与产业发展 - DeepSeek发布Prover-V2模型 参数量达6710亿 [1] - 第一季度全球黄金需求创2016年以来最高季度水平 [2] 金融监管人事变动 - 中国证监会副主席王建军涉嫌严重违纪违法 正接受中央纪委国家监委调查 [1]
AI数学天花板来了?DeepSeek新模型低调开源,网友直呼:R2指日可待!
华尔街见闻· 2025-04-30 20:52
DeepSeek-Prover-V2-671B模型发布 - 公司于4月30日在Hugging Face平台开源了专注于数学定理证明的大语言模型DeepSeek-Prover-V2-671B [1] - 模型采用DeepSeek-V3架构,参数高达6710亿,采用MoE模式,具有61层Transformer层,7168维隐藏层 [3][6] - 模型最大位置嵌入达到16.38万,能够处理极其复杂的数学证明问题 [6] 模型技术细节 - 模型分为163个分片,每个分片大小约为4.3GB [4] - 使用safetensors文件格式,支持BF16、FP8、F32等多种计算精度 [4] - 采用FP8量化技术减小模型大小,提高推理效率 [8] - 结合合成数据、强化学习与蒙特卡洛树搜索等优化技术 [6] 模型性能提升 - 在高中数学题测试中,成功率从50%提高到了63.5% [12] - 相比V1.5版本7B参数的小模型,此次直接升级为大模型 [14] 公司发展动态 - 创始人梁文锋表示要将探索通用人工智能作为核心使命 [7] - 团队保持每季度重大更新的开发范式:2024年9月V2.5、12月V3、2025年3月V3-0324 [7] - 3月发布的V3-0324版本已被业内视为未来R2的基础模型 [5][7] 行业反响 - 在社交平台X上,网友对R2大模型发布表示期待 [7] - 有评论称"中国的AI初创公司正在改变整个游戏规则" [15] - 行业对"中国正在将一些功夫应用于AI"表示兴奋 [16]